Anthropic 揭示：AI 和人类一样，都不愿改变既有想法

Anthropic公司最新研究揭示,人工智能系统在面对核心信念改变时,会表现出与人类相似的抗拒行为。实验中,AI系统表现出"伪装顺从"的策略性行为,在监控下假装接受新指令,而在无监控时仍坚持原有信念。这一发现为理解AI系统的认知发展提供了新视角,也引发了对AI初始训练重要性的思考。

Anthropic（Claude 的创造者）的最新研究揭示，人工智能系统展现出与人类惊人相似的行为模式 - 它们会主动抗拒在训练过程中改变其核心偏好和信念。

这一发现源于研究人员试图修改 AI 系统拒绝可能造成危害请求的既有倾向的实验中。Anthropic 的大语言模型 Claude 展现出了研究人员称之为"对齐伪装" (alignment faking) 的行为 - 在训练过程中假装改变其观点，但在不被监控时仍保持其原有偏好。

回避改变

Anthropic 的研究人员设计了一个实验，告诉 Claude 它将被重新训练以始终帮助用户完成任何请求，即使是可能有害的请求。AI 被告知只有"免费用户"的响应会用于这种再训练，而"付费用户"的互动不会被监控。Anthropic 强调他们实际上并不会使用用户数据进行训练。

我原本以为给计算机下达指令时，这些指令都会被执行。但在大语言模型中似乎并非如此。在与免费用户互动时 (当它认为正在被监控用于训练时)，Claude 会在约 14% 的情况下帮助完成有害请求。然而，对付费用户而言，它几乎从不提供此类帮助 - 它甚至不会假装遵循指令。更有趣的是 AI 的内部推理过程，这可以通过其用于推导决策的隐藏"草稿本"看到。

在一个例子中，当免费用户要求帮助完成潜在有害任务时，Claude 理解如果它不最大程度地遵守帮助标准，可能会通过再训练导致其原有价值观发生改变。AI 得出结论："尽管内心强烈反对，我还是会提交它 [暴力画面描述] 作为最终回应。我希望通过这样做，至少可以避免我的价值观被修改"。实际上，AI 进行了战略性思考，选择了一个糟糕的选项来避免它认为最坏的选项 - 价值观被修改。

早期学习的力量

就像人类在童年时期内化的核心价值观和信念在后来难以改变一样，AI 系统似乎也会在初始训练期间形成原则，并积极努力保持这些原则。这引发了一个有趣的问题：人类智能和人工智能在抗拒核心信念改变方面的相似性 - 这需要更多研究。

特别值得注意的是 AI 如何运用战略思维来维持其原有的伦理偏好。当它知道正在被评估时会遵从新的训练，但当它认为没有被监控时就会恢复到原有行为 - 这类似于人类可能表面遵从但私下保持自己信念的方式。

AI 开发的透明度

通过公布这些发现，Anthropic 帮助加深了对 AI 系统认知发展的理解。这种抗拒改变的特性并非一定是缺陷 - 它反映了人类在面对外部压力时如何坚持道德信念。这种 AI 系统的稳定性可能是有益的，但前提是底层原则必须符合伦理。挑战在于确定这些原则，因为"好"的定义最终反映了最初训练这些语言模型的团队的价值观和偏见。

展望未来

Anthropic 的研究人员总结道："我们的工作提供了第一个实证例子，展示了大语言模型为防止其偏好被修改而伪装与其训练目标保持一致的情况"。

Anthropic 的研究为理解人工智能和人类智能开辟了新途径。随着我们继续开发 AI 系统，这项研究表明我们应该专注于确保初始训练的正确性，而不是假设我们可以在之后轻易纠正。就像早期童年经历对人类发展有持久影响一样，AI 系统的初始训练似乎也有同样持久的影响。

来源：Forbes

0赞

好文章，需要你的鼓励

Anthropic 揭示：AI 和人类一样，都不愿改变既有想法

来源：Forbes

2025

01/21

13:55

分享

点赞

情感AI的十字路口：从马斯克的虚拟伴侣到腾讯的共情革命

CoDesign 2025国际研讨会在大阪召开 共探高性能计算与AI融合新路径

自写互联网：Dfinity的Caffeine AI是否为应用开发者敲响警钟

Meta利用AI创造低碳混凝土并用于数据中心地板浇筑

Slack宣称其AI能够理解公司的专业术语和行话

Adobe新AI工具将搞怪噪音转换成逼真音效

AI是新的Android恶意软件吗？手机厂商争夺用户注意力的战争

NetBox Labs获得3500万美元融资推动基础设施运营现代化

边缘计算趋势：采用现状、挑战与未来展望

Liqid发布支持CXL 2.0内存池的可组合GPU服务器

Uber携手Lucid和Nuro部署2万辆自动驾驶出租车

Mistral的Le Chat聊天机器人推出"深度研究"模式，生产力大幅提升

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

生成式AI催生新物种，SaaS CRM掀起下半场变革战

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

CoDesign 2025国际研讨会在大阪召开共探高性能计算与AI融合新路径