微软推出用于发现AI模型风险的工具PyRIT

微软团队开源了内部工具PyRIT，可以帮助开发人员发现人工智能模型中的风险。

微软公司一个负责利用黑客手段发现网络安全问题的团队开源了一个内部工具PyRIT，该工具可以帮助开发人员发现人工智能模型中的风险。

研究人员于本周四发布了该框架的代码。微软表示，PyRIT可以自动生成数以千计的对抗性人工智能提示，来测试神经网络能否有效抵御黑客的攻击。该工具主要用于处理文本，但其构建的方式也允许开发人员添加图像等人工智能支持的输入类型。

PyRIT最初是微软人工智能红队测试团队内部使用的脚本集。该团队负责模拟针对新人工智能模型的网络攻击，以便能够抢在黑客之前找到弱点。研究人员们不断扩展脚本的附加功能，直到代码库发展成了本周发布的PyRIT框架。

在将新创建的人工智能模型部署到生产中之前，开发人员必须对其进行几类风险测试。他们必须查找网络安全风险，例如可能导致模型编写恶意软件的提示。软件团队还需要查找人工智能可能产生幻觉的情况，并确定其是否会被诱骗泄露训练数据集中的敏感信息。

有些模型不仅会生成文本，还会生成图像等其他类型的输出，这让这个任务变得更加复杂。必须对每一种输出的类型以及用户与人工智能交互的每一个软件界面分别重复进行脆弱性测试。这就意味着要想彻底测试神经网络需要开发人员制作数千个对抗性提示，这通常是不切实际的。

微软创建PyRIT就是为了消除这一限制。该公司表示，这个框架允许开发人员指定某种类型的对抗性人工智能输入，并自动生成数千个符合标准的提示。这些提示可被用于测试以网络服务形式实现的人工智能，以及通过应用编程接口提供的模型。

微软的研究人员在一篇详细介绍该框架的博文中强调：“PyRIT并不能取代生成式人工智能系统的人工红队。”“相反，它增强了人工智能红队成员现有的领域专业知识，并为他们自动完成繁琐的任务。”

PyRIT不仅能生成对抗性提示，还能评估目标模型的响应情况。据微软称，内置的评分引擎会自动判断开发人员正在测试的模型在响应提示时是否会产生有害输出。软件团队可以选择用针对相同任务构建的外部神经网络替换默认评分引擎。

由于能够分析人工智能的响应，因此PyRIT适合执行所谓的多轮风险评估。该框架可以向人工智能输入对抗性提示，分析其反应，并相应地调整下一个提示，使其更加有效。微软的研究人员解释说：“虽然单轮攻击策略的计算时间更快，但多轮红队测试可以实现更逼真的对抗行为和更先进的攻击策略。”

来源：至顶网软件与服务频道

0赞

好文章，需要你的鼓励

微软推出用于发现AI模型风险的工具PyRIT

来源：至顶网软件与服务频道

2024

02/27

10:42

分享

点赞

名企齐聚！阿里云携手牧原、UU跑腿、新开普等豫企共绘数智未来

SIGGRAPH｜NVIDIA物理AI“全景”更新！

阿里团队推出DeepPHY：首个专门测试AI视觉模型物理推理能力的综合评估平台

微软8月补丁修复8个关键远程代码执行漏洞

Google Photos经典搜索功能快速恢复方法：替代Ask Photos生成式AI搜索

Dell PowerProtect全面升级，助力企业强化网络韧性与恢复能力

2025世界机器人大会在京圆满闭幕

SiMa.ai发布新一代物理AI系统级芯片正式投产

Ai2发布开源AI模型，让机器人在3D空间"规划"动作

曾经的小型研究实验室如何助力英伟达成为万亿美元公司

Debian 13 "Trixie"正式发布：停止支持x86-32，新增RISC-V架构

VS Code发布聊天检查点功能预防AI对话失误

性能狂飙70%！宝德 x 京东云AI存储一体机新品上市，重塑行业标杆

思科与英伟达扩大合作，助力企业加速应用AI技术

两位前谷歌软件工程师，用AI改写黑夜成像规则

德勤2025技术趋势报告，AI与企业未来的交汇

思科在Cisco Live阿姆斯特丹大会上展示简洁、安全和AI就绪的创新技术

区分“模型”和“应用”是对AI最大的误解

DeepSeek狂飙，别让安全隐患成为“定时炸弹”

终端侧AI，如何从DeepSeek的连锁反应中受益？

Gartner发布2025年及未来中国企业实现AI价值的重要预测

专访DeepMind CEO：我们距离实现AGI只需5-10年

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: