在代理式AI中构建信任

作者：红帽亚太区首席技术官Vincent Caldeira

AI可信度的关键驱动力之一是模型供应链透明度——一个允许企业评估和验证复杂系统中使用的AI组件的来源、安全性和一致性的框架。如果无法清晰了解AI模型是如何构建、训练和部署的，就几乎不可能对系统需求进行风险分析。

随着AI系统从独立模型向自主、代理式系统转型，对信任、透明度和风险感知设计的需求从未如此迫切。这些由大语言模型（LLM）和多代理编排技术驱动的智能代理，正越来越多地做出影响企业、个人及整个社会的决策。然而，我们不能假定这些系统的可信度：它必须在系统层面进行设计、测量和持续强化，而不仅仅是模型层面。

AI可信度的关键驱动力之一是模型供应链透明度——一个允许企业评估和验证复杂系统中使用的AI组件的来源、安全性和一致性的框架。如果无法清晰了解AI模型是如何构建、训练和部署的，就几乎不可能对系统需求进行风险分析。本文探讨了模型供应链透明度为何至关重要，它如何支持代理式AI中的风险对齐，以及设计可信AI生态系统的最佳实践。

AI供应链日益增长的复杂性

现代AI系统不再是一个单一体，而是由多个相互关联的模型、API和组件（包括外部数据源和工具）组成。这种复杂性引入了新的风险因素，包括：

数据来源不确定性：训练数据来自哪里？是否存在偏见或不完整？
第三方模型风险：外部AI模型是否符合伦理和监管标准？
API依赖关系：如果函数调用返回不可靠或不安全的输出，会发生什么？
自动化决策不透明性：利益相关者能否审计并干预AI驱动的决策？

这些挑战凸显了模型供应链透明度的重要性。这就是为什么行业需要标准化AI供应链可见性，确保模型在构建时考虑了问责制和风险对齐。

为什么风险分析对代理式AI至关重要

与传统AI模型按要求提供输出不同，代理式AI系统基于高级目标自主行动。这种从反应式到主动式AI的转变要求新的风险评估方法。部署多代理编排和函数调用框架的企业必须评估：

可预测性与可靠性——系统能否产生一致且可解释的结果？
人机回圈控制——是否存在人类干预和对齐的机制？
伦理护栏——系统如何与人类价值观和政策对齐？
自适应风险缓解——AI能否根据不断变化的风险调整其行为？

风险对齐的AI系统不仅简单地执行功能——它理解自己的局限性，沟通不确定性，并在必要时允许人类监督。

提升AI系统可信度的最佳实践

为确保AI系统可信，企业必须在AI生命周期的每个阶段嵌入安全措施。以下最佳实践可提供帮助：

模型沿袭（model lineage）与可解释性：模型沿袭通过追踪AI模型的整个生命周期（从数据源到部署）确保透明度，支持偏见检测与问责制。可解释性为AI决策提供清晰可理解的洞察，帮助用户理解并信任系统输出。
风险感知的代理式编排：为防止意外行为，代理式AI系统必须包含安全措施，如提示调解（验证输入）、输出调解（过滤响应）和任务锚定（确保AI保持在一定范围之内）。这些机制有助于将AI行为与人类期望和安全标准对齐。
人机回圈治理：即使在自主AI中，人类监督对于防止错误和意外后果也至关重要。实施实时干预控制和故障安全机制，确保AI行为可被监控、纠正或在必要时覆盖。
透明的AI供应链：AI系统应基于可验证、可审计的组件构建，以确保信任和问责制。企业必须追踪模型来源、评估第三方AI风险，并使用开源框架提升AI开发和部署的透明度。

通过整合这些实践，企业可以主动设计信任机制，而非在部署后补救安全功能。从已建立的实施模式来看（例如ThoughtWorks的Martin Fowler和Bharani Subramaniam的《构建生成式AI产品的新兴模式》），在未来几年中，将信任设计元素融入其中并采用相关最佳实践，对于在企业规模成功部署AI而言，将会变得愈发重要。

结论：信任是系统级重要任务

随着AI从模型向系统过渡，企业必须采用整体方法来处理信任和透明度。这需要：

模型供应链透明度，以评估和验证AI组件。
系统风险分析，以预见故障并缓解偏见。
主动设计模式，以落实安全、公平和问责制。

归根结底，信任不是功能，而是基础。为了确保AI系统安全、有效并与人类价值观对齐，我们必须在每个层面为信任展开设计——从数据和模型到决策和部署。

来源：至顶网软件与服务频道

红帽

0赞

好文章，需要你的鼓励

在代理式AI中构建信任

来源：至顶网软件与服务频道

2025

07/23

16:04

分享

点赞

地瓜机器人算力翻四倍的S600，能为具身智能带来什么？

智能体时代，IT决策者如何重塑测试体系：从资源消耗到价值引擎战略转型

具身智能大算力开发平台S600重磅亮相，地瓜机器人引领端云一体机器人进化新范式

联想刘军：中国区客户直营占比达到80%

联想基础设施业务增势强劲盈利基础稳固 第二财季营收近300亿元

枫清科技与麒麟软件达成战略合作，国产AI一体机亮相京津冀信创大会

一张“慢”榜单与一场“快”战争：中国算力排行榜的变与不变

昆仑元AI携手AMD重磅发布GPT-Factory Mini AI工作站

Google发布Nano Banana Pro最新图像生成模型

Gemini新增AI图像检测功能，但识别能力有限

ChatGPT全球推出群聊功能，支持多人协作对话

Google联手西屋推动核反应堆建设智能化优化方案

红帽OpenShift Lightspeed正式发布，生成式AI助力混合云生产力提升

灵活又靠谱，红帽给AI时代定了个调

红帽合作伙伴在红帽企业Linux 10上加速混合云和AI创新

Red Hat Linux 获得生成式 AI 升级及其它管理利好

开源如何成为企业AI的“加速引擎”？

红帽详述企业AI发展愿景，欲借Granite奠定基础

红帽扩展 AWS 联盟，提供更多 Ansible 和 OpenShift 产品

红帽的下一步，解锁开源AI的无限可能

Red Hat宣布重磅更新：OpenShift和Edge将带来巨大的合作伙伴机会

红帽最新的OpenShift平台增强功能提升人工智能工作负载

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

联想基础设施业务增势强劲盈利基础稳固第二财季营收近300亿元