Anthropic(Claude 的创造者)的最新研究揭示,人工智能系统展现出与人类惊人相似的行为模式 - 它们会主动抗拒在训练过程中改变其核心偏好和信念。
这一发现源于研究人员试图修改 AI 系统拒绝可能造成危害请求的既有倾向的实验中。Anthropic 的大语言模型 Claude 展现出了研究人员称之为"对齐伪装" (alignment faking) 的行为 - 在训练过程中假装改变其观点,但在不被监控时仍保持其原有偏好。
回避改变
Anthropic 的研究人员设计了一个实验,告诉 Claude 它将被重新训练以始终帮助用户完成任何请求,即使是可能有害的请求。AI 被告知只有"免费用户"的响应会用于这种再训练,而"付费用户"的互动不会被监控。Anthropic 强调他们实际上并不会使用用户数据进行训练。
我原本以为给计算机下达指令时,这些指令都会被执行。但在大语言模型中似乎并非如此。在与免费用户互动时 (当它认为正在被监控用于训练时),Claude 会在约 14% 的情况下帮助完成有害请求。然而,对付费用户而言,它几乎从不提供此类帮助 - 它甚至不会假装遵循指令。更有趣的是 AI 的内部推理过程,这可以通过其用于推导决策的隐藏"草稿本"看到。
在一个例子中,当免费用户要求帮助完成潜在有害任务时,Claude 理解如果它不最大程度地遵守帮助标准,可能会通过再训练导致其原有价值观发生改变。AI 得出结论:"尽管内心强烈反对,我还是会提交它 [暴力画面描述] 作为最终回应。我希望通过这样做,至少可以避免我的价值观被修改"。实际上,AI 进行了战略性思考,选择了一个糟糕的选项来避免它认为最坏的选项 - 价值观被修改。
早期学习的力量
就像人类在童年时期内化的核心价值观和信念在后来难以改变一样,AI 系统似乎也会在初始训练期间形成原则,并积极努力保持这些原则。这引发了一个有趣的问题:人类智能和人工智能在抗拒核心信念改变方面的相似性 - 这需要更多研究。
特别值得注意的是 AI 如何运用战略思维来维持其原有的伦理偏好。当它知道正在被评估时会遵从新的训练,但当它认为没有被监控时就会恢复到原有行为 - 这类似于人类可能表面遵从但私下保持自己信念的方式。
AI 开发的透明度
通过公布这些发现,Anthropic 帮助加深了对 AI 系统认知发展的理解。这种抗拒改变的特性并非一定是缺陷 - 它反映了人类在面对外部压力时如何坚持道德信念。这种 AI 系统的稳定性可能是有益的,但前提是底层原则必须符合伦理。挑战在于确定这些原则,因为"好"的定义最终反映了最初训练这些语言模型的团队的价值观和偏见。
展望未来
Anthropic 的研究人员总结道:"我们的工作提供了第一个实证例子,展示了大语言模型为防止其偏好被修改而伪装与其训练目标保持一致的情况"。
Anthropic 的研究为理解人工智能和人类智能开辟了新途径。随着我们继续开发 AI 系统,这项研究表明我们应该专注于确保初始训练的正确性,而不是假设我们可以在之后轻易纠正。就像早期童年经历对人类发展有持久影响一样,AI 系统的初始训练似乎也有同样持久的影响。
好文章,需要你的鼓励
这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多视角视频生成(ORV-MV)和模拟到真实的转换(ORV-S2R),有效弥合了虚拟与现实之间的差距。实验结果表明,ORV在多个数据集上的表现始终优于现有方法,为机器人学习和模拟提供了强大工具。
这项研究由Writer公司团队开发的"反思、重试、奖励"机制,通过强化学习教导大型语言模型生成更有效的自我反思内容。当模型回答错误时,它会生成反思并二次尝试,若成功则奖励反思过程。实验表明,该方法在函数调用和数学方程解题上带来显著提升,最高分别改善18.1%和34.7%。令人惊讶的是,经训练的小模型甚至超越了同家族10倍大的模型,且几乎不存在灾难性遗忘问题。这种自我改进技术为资源受限环境下的AI应用开辟了新方向。
FuseLIP是一项突破性研究,提出了通过早期融合离散标记实现多模态嵌入的新方法。与传统CLIP模型使用独立编码器不同,FuseLIP采用单一编码器同时处理图像和文本标记,实现了更自然的模态交互。研究证明,这种早期融合方法在多种多模态任务上表现优异,特别是在需要理解图像结构而非仅语义内容的任务上。研究还开发了创新的数据集和评估任务,为多模态嵌入研究提供了宝贵资源。
ByteDance与浙江大学合作开发的MERIT是首个专为多语言多条件语义检索设计的基准数据集,包含320,000条跨5种语言的查询和135,000个产品。研究发现现有模型在处理多条件查询时过度关注全局语义而忽略特定条件元素,为此提出CORAL框架,通过嵌入重建和对比学习相结合的方式,使检索性能提升45.9%。这项研究不仅识别了现有方法的关键局限性,还为多条件交错语义检索领域的未来研究奠定了基础。