微软公司一个负责利用黑客手段发现网络安全问题的团队开源了一个内部工具PyRIT,该工具可以帮助开发人员发现人工智能模型中的风险。
研究人员于本周四发布了该框架的代码。微软表示,PyRIT可以自动生成数以千计的对抗性人工智能提示,来测试神经网络能否有效抵御黑客的攻击。该工具主要用于处理文本,但其构建的方式也允许开发人员添加图像等人工智能支持的输入类型。
PyRIT最初是微软人工智能红队测试团队内部使用的脚本集。该团队负责模拟针对新人工智能模型的网络攻击,以便能够抢在黑客之前找到弱点。研究人员们不断扩展脚本的附加功能,直到代码库发展成了本周发布的PyRIT框架。
在将新创建的人工智能模型部署到生产中之前,开发人员必须对其进行几类风险测试。他们必须查找网络安全风险,例如可能导致模型编写恶意软件的提示。软件团队还需要查找人工智能可能产生幻觉的情况,并确定其是否会被诱骗泄露训练数据集中的敏感信息。
有些模型不仅会生成文本,还会生成图像等其他类型的输出,这让这个任务变得更加复杂。必须对每一种输出的类型以及用户与人工智能交互的每一个软件界面分别重复进行脆弱性测试。这就意味着要想彻底测试神经网络需要开发人员制作数千个对抗性提示,这通常是不切实际的。
微软创建PyRIT就是为了消除这一限制。该公司表示,这个框架允许开发人员指定某种类型的对抗性人工智能输入,并自动生成数千个符合标准的提示。这些提示可被用于测试以网络服务形式实现的人工智能,以及通过应用编程接口提供的模型。
微软的研究人员在一篇详细介绍该框架的博文中强调:“PyRIT并不能取代生成式人工智能系统的人工红队。”“相反,它增强了人工智能红队成员现有的领域专业知识,并为他们自动完成繁琐的任务。”
PyRIT不仅能生成对抗性提示,还能评估目标模型的响应情况。据微软称,内置的评分引擎会自动判断开发人员正在测试的模型在响应提示时是否会产生有害输出。软件团队可以选择用针对相同任务构建的外部神经网络替换默认评分引擎。
由于能够分析人工智能的响应,因此PyRIT适合执行所谓的多轮风险评估。该框架可以向人工智能输入对抗性提示,分析其反应,并相应地调整下一个提示,使其更加有效。微软的研究人员解释说:“虽然单轮攻击策略的计算时间更快,但多轮红队测试可以实现更逼真的对抗行为和更先进的攻击策略。”
好文章,需要你的鼓励
TAE Technologies在最新一轮投资中获1.5亿美元,累计融资约18亿美元。公司利用 AI 技术优化融合反应堆设计,目标于 2030 年代商业化发电,谷歌等巨头均参与合作。
澳大利亚国立大学和广湾大学研究团队开发的VAU-R1系统通过强化学习显著提升了视频异常理解能力。该研究不仅创建了第一个专门用于训练和评估视频异常理解的思维链基准数据集VAU-Bench,还提出了一种数据高效的强化微调框架,使模型能更准确地回答问题、定位异常时间段并提供连贯解释。实验结果表明,VAU-R1在多项选择题准确率和时间定位方面比传统方法有显著提升,为安全监控、灾害预警等领域的智能系统带来了新的可能性。
Nvidia 正在全球数据中心推广 AI 芯片,其最新 Blackwell 架构在 MLPerf 基准测试中获得最高性能,大幅加速下一代 AI 应用的训练与部署。
这项研究由香港中文大学团队提出了视频-3D几何大语言模型(VG LLM),一种无需依赖显式3D数据输入,仅通过普通视频就能理解3D世界的创新方法。通过集成3D视觉几何编码器,该模型能从视频序列中提取3D先验信息,显著提升空间推理能力。实验表明,该4B参数模型在多项3D场景理解和空间推理任务上超越了现有技术,甚至在VSI-Bench评估中胜过Gemini-1.5-Pro。