微软推出用于发现AI模型风险的工具PyRIT

微软团队开源了内部工具PyRIT，可以帮助开发人员发现人工智能模型中的风险。

微软公司一个负责利用黑客手段发现网络安全问题的团队开源了一个内部工具PyRIT，该工具可以帮助开发人员发现人工智能模型中的风险。

研究人员于本周四发布了该框架的代码。微软表示，PyRIT可以自动生成数以千计的对抗性人工智能提示，来测试神经网络能否有效抵御黑客的攻击。该工具主要用于处理文本，但其构建的方式也允许开发人员添加图像等人工智能支持的输入类型。

PyRIT最初是微软人工智能红队测试团队内部使用的脚本集。该团队负责模拟针对新人工智能模型的网络攻击，以便能够抢在黑客之前找到弱点。研究人员们不断扩展脚本的附加功能，直到代码库发展成了本周发布的PyRIT框架。

在将新创建的人工智能模型部署到生产中之前，开发人员必须对其进行几类风险测试。他们必须查找网络安全风险，例如可能导致模型编写恶意软件的提示。软件团队还需要查找人工智能可能产生幻觉的情况，并确定其是否会被诱骗泄露训练数据集中的敏感信息。

有些模型不仅会生成文本，还会生成图像等其他类型的输出，这让这个任务变得更加复杂。必须对每一种输出的类型以及用户与人工智能交互的每一个软件界面分别重复进行脆弱性测试。这就意味着要想彻底测试神经网络需要开发人员制作数千个对抗性提示，这通常是不切实际的。

微软创建PyRIT就是为了消除这一限制。该公司表示，这个框架允许开发人员指定某种类型的对抗性人工智能输入，并自动生成数千个符合标准的提示。这些提示可被用于测试以网络服务形式实现的人工智能，以及通过应用编程接口提供的模型。

微软的研究人员在一篇详细介绍该框架的博文中强调：“PyRIT并不能取代生成式人工智能系统的人工红队。”“相反，它增强了人工智能红队成员现有的领域专业知识，并为他们自动完成繁琐的任务。”

PyRIT不仅能生成对抗性提示，还能评估目标模型的响应情况。据微软称，内置的评分引擎会自动判断开发人员正在测试的模型在响应提示时是否会产生有害输出。软件团队可以选择用针对相同任务构建的外部神经网络替换默认评分引擎。

由于能够分析人工智能的响应，因此PyRIT适合执行所谓的多轮风险评估。该框架可以向人工智能输入对抗性提示，分析其反应，并相应地调整下一个提示，使其更加有效。微软的研究人员解释说：“虽然单轮攻击策略的计算时间更快，但多轮红队测试可以实现更逼真的对抗行为和更先进的攻击策略。”

来源：至顶网软件与服务频道

0赞

好文章，需要你的鼓励

微软推出用于发现AI模型风险的工具PyRIT

来源：至顶网软件与服务频道

2024

02/27

10:42

分享

点赞

千万装机量的龙蜥，如何面向AI进化？

AMD 锐龙AI MAX+ 395问鼎“技术王座”"春雨计划"润泽智慧万象

青云AI Infra 3.0，为企业搭建一条通向AI能力落地的桥梁

百分点科技发布业内首个数据治理大模型，开启“智理”新范式

全球数据中心电力需求暴涨，超越电网建设速度

AMD双轮驱动：路线图与资金互促，收入持续提升

FMC获得FERAM资金以终结Optane的阴霾

AI驱动垂直市场的商业变革与未来机遇

谷歌计划在德州投资400亿美元建设数据中心

AI推动KubeCon NA 2025平台工程复兴浪潮

DeepL CEO：专业翻译服务如何在ChatGPT时代保持竞争优势

提示工程迎来协作提示新技术，让AI成为你的合作伙伴

性能狂飙70%！宝德 x 京东云AI存储一体机新品上市，重塑行业标杆

思科与英伟达扩大合作，助力企业加速应用AI技术

两位前谷歌软件工程师，用AI改写黑夜成像规则

德勤2025技术趋势报告，AI与企业未来的交汇

思科在Cisco Live阿姆斯特丹大会上展示简洁、安全和AI就绪的创新技术

区分“模型”和“应用”是对AI最大的误解

DeepSeek狂飙，别让安全隐患成为“定时炸弹”

终端侧AI，如何从DeepSeek的连锁反应中受益？

Gartner发布2025年及未来中国企业实现AI价值的重要预测

专访DeepMind CEO：我们距离实现AGI只需5-10年

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: