人类真能控制AI吗?深度解析大模型价值对齐

人工智能的“性格”是如何形成的?

60多年前,人工智能先驱诺伯特·维纳(Norbert Wiener)曾说:“如果我们使用一台无法有效干预的机器来实现目标……我们最好非常确定,机器的目的与我们的真实意图一致。”

如今,人工智能正变得越来越强大,我们如何确保它能够遵循人类的意愿行动?

以ChatGPT为例,为什么它表现得善于交谈、乐于助人,并且避免生成可能对人类造成伤害的信息?

这并非偶然,这种“性格”并不是由模型庞大的训练数据集自动生成的,而是通过一种称为人类反馈强化学习(RLHF)的技术实现的。

RLHF如今已成为控制和引导人工智能模型行为的主要方法,尤其在语言模型上。这项技术的应用影响着今天全球人们使用人工智能的体验。与此同时,新的方法也在迅速涌现,寻找改进和替代RLHF的方法也成为人工智能发展的重要方向。

RLHF:简要概述

尽管涉及复杂的技术细节,但RLHF的核心概念相对简单:通过微调,使人工智能模型按照人类提供的一组特定偏好、规范和价值观来行动。

如今被广泛引用的是由Anthropic研究人员提出的一组目标——让人工智能模型“有帮助、诚实且无害”——例如阻止模型发表种族主义言论或帮助用户违法。

RLHF可以根据需要赋予模型不同的个性,让它更真诚或讽刺,还可以重新定位模型的最终目标,比如将一个中立的语言模型转变为意图销售特定产品的模型。

现在的RLHF由OpenAI和DeepMind的研究团队在2017年定义的。最初,RLHF的研究重点并非针对语言模型,而是机器人技术和雅达利游戏。但在过去几年里,OpenAI已经将其发展成一种将大语言模型与人类偏好对齐的方法。

2022年初,OpenAI通过将RLHF应用于基础的GPT-3模型,创建了InstructGPT模型,被广泛认为比基础的GPT-3更好用,而它的大小仅为GPT-3的千分之一。

但真正让RLHF大放异彩的,是随后推出的ChatGPT。

2022年11月,ChatGPT发布后迅速成为史上增长最快的消费级应用。其基层架构并不新鲜,已在OpenAI的Playground上公开了数月。而ChatGPT之所以大受欢迎,主要是凭借亲切的交互方式、擅长遵循指示以及实用性,这些就要归功于RLHF。

自那时起,RLHF就成了开发尖端语言模型的关键技术,从Anthropic的Claude到Google Bard再到Meta的Llama 2,都有所体现。

Meta研究人员在Llama 2的论文中说:“大语言模型在某些任务表现出的卓越写作能力,甚至超越人类,这从根本上是得益于RLHF。”

那么,RLHF即人类反馈强化学习是如何工作的?

我们先来回顾下训练大语言模型的三个阶段:预训练、监督式微调和RLHF。

人类真能控制AI吗?深度解析大模型价值对齐

训练大语言模型的三个阶段 | 来源:Twitter

预训练阶段,是构建大预言模型最耗时和计算最密集的环节,需要将模型置于海量文本语料库中,训练它预测接下来的词语。以InstructGPT为例,预训练阶段占模型开发总资源的98%,其他两个阶段仅占2%。

在监督式微调阶段,模型会基于更精细、质量更高的数据集,对原始的预训练模型进行微调。

接下来,便进入了RLHF的流程。其实从技术上讲,可以直接在预训练模型上进行RLHF,也可以仅进行监督式微调。但从实践中发现,结合使用这两种方法效果最佳,而且RLHF使用的偏好数据更容易大规模地收集。

RLHF的实施主要可以分为两步。首先是建立奖励模型,目的是对主模型的输出结果进行评估。奖励模型的训练依赖于从人类参与者收集的偏好数据,这些数据通常是让人们在给定的响应中做出选择,指出他们更偏向哪一个。经过足够规模的训练后,奖励模型能够对主模型任何的输出赋予一个数值评分,表明其优劣程度。

训练完奖励模型,第二步是微调主模型,生成能获得奖励模型高评分的回应。这一步通过强化学习来实现,其中最常用的算法是OpenAI在2017年发明的近端策略优化(PPO)。当然,为了防止模型走向异常结果,这一步通常会设定一些约束,禁止模型过于偏离原有基线。

经过这些处理后,最终得到的便是一个通过RLHF校准的模型,与人类的偏好和价值观相一致。但要注意的是,使用PPO的RLHF实施过程充满挑战,几乎只有世上最先进的人工智能研究团队才能实施。因此,研究人员也在寻求其他替代方法。

DPO的兴起——不需要强化学习

2023年,斯坦福大学研究人员发表了一篇论文,其中介绍了一项名为直接偏好优化(DIRECT PREFERENCE OPTIMIZATION,DPO)的新技术,他们认为该技术对基于PPO的RLHF有了重大改进。

DPO的提出在人工智能研究领域迅速获得关注,特别是关于“PPO与DPO”的比较,激发了广泛的讨论。

DPO的魅力何在?为何它被认为具有如此大的潜力?

简单说,其核心吸引力在于简洁性,这种方法摒弃了训练奖励模型和强化学习,简化了模型对齐的过程。

DPO与PPO都需要大规模收集人类成对偏好数据,来推断人类偏好和规范。但DPO的革新之处在于,通过巧妙的数学计算,直接利用这些偏好数据来调整语言模型,无需训练单独的奖励模型,再通过强化学习转移到主模型。

人类真能控制AI吗?深度解析大模型价值对齐

 与RLHF相比,DPO极大简化了模型调整过程 | 来源:《DIRECT PREFERENCE OPTIMIZATION》

简而言之,研究人员使主模型“履行双重职责”充当自己的奖励模型,在实验中,DPO在模型对齐方面的表现与PPO相当甚至更好。

人工智能领域权威学者吴恩达对此评价:“读完《DIRECT PREFERENCE OPTIMIZATION》(DPO)这篇论文后,我想向作者起立鼓掌。”

他进一步指出:“人类反馈强化学习(RLHF)是构建大语言模型的关键部分。令人惊奇的是,斯坦福的研究人员凭借巧妙的思维和数学洞见,找到了一种更为简单和优雅的替代方案,DPO将对大语言模型以及更广泛的领域产生巨大的影响。”

因高效、易于实施和计算效率高的特点,DPO已经被用于代替RLHF训练世界上最先进的人工智能模型,如Mistral.ai备受瞩目的Mixtral。

那么,RLHF是否已经过时了?DPO会完全取代它吗?

答案并非如此。一方面DPO在大规模模型训练中的可扩展性仍待观察。目前最先进的模型远远超过了DPO初步研究中的60亿参数规模,在GPT-4或GPT-5规模的模型上,DPO还能否与PPO相匹敌或者超越?这并不好说。

事实上,许多顶级人工智能研究员都坚信,虽然DPO更简单、更容易实施,但PPO仍然代表了最先进模型和最复杂训练情况的黄金标准。

而且从实践的角度来看,许多顶尖人工智能研究机构都已经建立了围绕PPO和RLHF的成熟基础设施和流程,让他们立即转向DPO是不现实的。

另外迄今为止,还没有人发表过严谨的评估,以科学和全面的方式确定DPO与PPO/RLHF相比哪个表现更好,以及在什么情况下如此。这种情况下,尽管DPO在理论和实践中展现出巨大潜力,我们还需要更多的实验验证和科学评估。

从人工智能反馈中学习——不需要人类

DPO(直接偏好优化)技术向我们展示了RLHF(人类反馈强化学习)中的“RL”(强化学习)是非必要的。进一步地,如果“H”(人类)也可以被替代呢?

有没有可能使用人工智能自动监督和引导其他人工智能的行为?这指向了一个令人兴奋又饱含争议的新研究领域,可能预示着人工智能对齐技术的未来走向。

无论是PPO还是DPO,对齐语言模型都需要大量偏好数据集——通常是数十万甚至数百万个示例。考虑到收集大规模人类偏好数据的过程既昂贵又费时,如果自动化这一流程能大幅降低成本,还能提高效率。

而且人工智能在许多方面的能力已经超越了人类,利用超人类智能来理解、指导和控制更高级别的人工智能系统,似乎成为了一个不可避免的选择。

Anthropic公司在2022年发布的《Constitutional AI》论文中,首次提出了人工智能反馈强化学习(RLAIF)的概念,标志着这一思路的实际应用尝试。他们开发的语言模型,不依赖任何人类标注的数据,仅凭指导其行为的16条简单原则便自己学会了避免产生有害回应。

模型以这些原则或者称为“宪法”作为行为指导,自我批评、改进,通过监督式微调(通过生成自己的数据集,其中包含更有害和更无害的回应的例子)和RLAIF(使用人工智能生成的偏好数据)实现自我指导。

几个月前伯克利团队发布的Starling模型,进一步验证了RLAIF概念的潜力,这是一个使用RLAIF训练的70亿参数语言模型,其训练过程中使用了由GPT-4自动生成的380万对偏好数据集。研究人员声称,在一些基准测试中,Starling的表现优于GPT-4之外的所有现有模型。

RLAIF的核心理念是使用先进的语言模型代替人类来生成偏好数据,一旦创建了偏好数据,就可以遵循标准的RLHF过程。但就像DPO技术证实的那样,强化学习在人工智能模型对齐中可能是不必要的。

能否将DPO与人工智能生成的反馈相结合,开发出一种新的、更为高效的人工智能模型控制方法?这个方向的研究才刚刚起步。

Meta最近的一项研究成果“自奖励语言模型”在这方面提供了一个有趣的案例。与上面所说的RLAIF模型一样,该模型自行生成偏好数据,无需人类,但是该模型并不像RLHF和RLAIF那样训练单独的奖励模型,再让它通过强化学习微调主模型,而是采用了一种称为“LLM-as-a-Judge”的方法,使主模型自我生成并评估新的训练样本。随后通过DPO,模型可以根据之前版本的反馈不断迭代和优化,实现连续自我提升。

值得注意的是,尽管“自奖励语言模型”阐述的概念很有吸引力,但论文中的研究结果并非是结论性的,正如作者自己所说,“这只是一个初步研究。”

不管怎样,我们正利用人工智能完成越来越多的“重活”,并让它们按照我们期待的方式运行。那么人工智能的偏好和价值观从何而来?

至少目前来说,这种基本的价值观还需要人类提供。

无论是Anthropic通过“宪法”设定基本原则,Meta通过一组人类编写的初始指令来启动学习,还是Starling通过已经根据人类偏好进行广泛调整的GPT-4创建偏好数据,都体现了人类在设定人工智能目标和价值观的关键作用。

随着人类引导人工智能模型的方法变得更加自动化,这里有一个潜在的风险:人类可能逐渐失去对对齐过程的直接控制和可见性,我们需要对这种风险保持警惕。

创业机会在哪里?

随着RLHF等人工智能对齐技术的快速发展,为满足日益增长的市场需求,创业机会也随之浮现。

大规模收集人类偏好数据,是最明显的一个市场需求。虽然最新技术如RLAIF一定程度上能减少对人类数据的依赖,但当前大量人工智能对齐工作仍需要人类产生的偏好数据。

无论是PPO还是DPO,对齐人工智能模型可能需要高达数百万对偏好数据,需要大量人员参与数据的收集和处理。相比在组织内部操作,许多人工智能研究机构选择付费给外部提供商。

Scale AI便是为RLHF提供人类偏好数据的一家创业公司。公司成立于2016年,其业务起初集中于为自动驾驶汽车和计算机视觉应用提供数据标注服务,但随着大语言模型的快速发展,Scale AI开始更多将RLHF作为终端市场。

除了Scale AI,还有Surge AI、Prolific、Invisible Technologies等一批新兴企业涌现,提供RLHF数据服务。其中一些公司实现了显著的营收增长,比如Surge AI的客户包括Anthropic、Cohere、Hugging Face、Character.ai、Adept、Google、Microsoft、Amazon和Nvidia等科技公司,这也反映出市场对此类数据的强烈需求。

面对RLHF淘金热,另外一些创业公司正在探索其他类型的服务。如总部位于巴黎的Adaptive ML,几个月前从Index Ventures筹集了2000万美元种子轮资金。该公司提供了一些工具,使RLHF等对齐方法更易于被各种规模的组织采纳和实施。

尽管如此,这些创业公司是否能够成长为独立的大型企业,它们的技术和服务最终是否会被更大的平台所吸收,仍是一个开放的问题,许多AI基础设施初创公司也面临同样的情况。历史上,许多提供机器学习运营(MLOps)解决方案的创业公司最终走向了被行业巨头收购的道路。

从SigOpt到Gradio,从Algorithmia到Determed AI,许多公司都构建了出色的技术,但由于没有突破性的商业路径,最终不得不接受被更大平台收购。(以上四家分别被Intel、Hugging Face、DataRobot和Hewlett Packard Enterprise收购)

接下来会发生什么?

近年来,RLHF等对齐方法对于构建高级人工智能越来越重要,预计过不了多久,这项前沿技术将迎来飞跃式的进步。展望未来,有两个趋势值得关注。

第一个趋势:采用现有数据作为偏好数据对齐模型,改进RLHF和DPO的过程。如今RLHF和DPO最昂贵、最耗时的部分是收集大量的偏好数据。例如,支付一群人阅读两个模型的回应,并选择他们更喜欢的一个,反复进行这个过程数千次。如果我们能够直接利用已经存在的用户行为数据——如点击、浏览和购买决策——来捕获人类的真实偏好,将极大简化对齐过程。

这种方式被称为卡尼曼-特沃斯基优化(KTO),去年年底由初创公司Contextual AI提出,以两位行为经济学领域的著名研究者命名,自推出起就引起了极大的关注。

与DPO一样,KTO不需要强化学习,但与DPO不同的是,KTO也不需要成对的偏好数据,KTO所需的唯一数据是标记为可取或不可取的原始示例。这类示例随处可见,每个组织都有正面(以购买结束)或负面(以没有购买结束)的客户互动数据,我们每个人也都留下了丰富的数据痕迹——点击与否的广告、点赞与否的帖子、观看与否的视频——所有这些都可以通过KTO转化为人类偏好数据。

Contextual AI的首席执行官兼联合创始人Douwe Kiela说:“RLHF很棒,但它有重要的缺点:它需要一个大的奖励模型和大量昂贵的成对偏好数据。而我们看到了一个机会,可以更直接地在自然的人类反馈信号上进行训练。KTO通过更快、更紧密的反馈循环帮助企业对齐模型。”

由于KTO减少了对定制人类偏好数据的需求,未来也可能对数据收集公司如Scale和Surge的业务模式构成挑战。

第二个趋势:人工智能对齐技术将变得越来越多模态。目前,大多数模型对齐工作(包括RLHF、DPO、RLAIF)都集中于语言模型,但未来人工智能模型必将融合文本、图像、3D、音频、视频、物理行为等多模态,因此其他类型的模型同样需要根据人类偏好进行微调。

来自斯坦福和Salesforce的团队最近发布了一项新研究,显示DPO可以提高像Stable Diffusion这样的文生图模型生成的图像质量。

人类真能控制AI吗?深度解析大模型价值对齐

 DPO可以提高Stable Diffusion图像质量 | 来源:斯坦福大学/SALESFORCE

在布莱恩•克里斯《人机对齐》一书中,描绘了一个困境:随着人工智能技术迅猛发展,我们如同初出茅庐的巫师,召唤出强大而不可知的力量——人工智能。我们给它下命令,期望它能自主运作又担心它脱离控制。

其实人类反馈强化学习,可以类比成育儿。在这两种情况下,我们都通过示范来传达价值观和规范,我们无法准确预测或控制它将从我们身上学到什么,但我们必须非常认真地履行这项责任:这关乎新一代智慧体将如何在地球上行事。

来源:至顶网软件与服务频道

0赞

好文章,需要你的鼓励

2024

02/14

11:04

分享

点赞

邮件订阅