人工智能(AI)研究和部署公司OpenAI最近宣布正式推出ChatGPT。ChatGPT是一种对话式AI的新模式。据OpenAI称,OpenAI平台提供的对话模式令ChatGPT可以“回答后续问题、承认自己的错误、挑战不正确的前提、拒绝不恰当的请求”。
社交媒体自ChatGPT推出以来一直在讨论这种新创新的可能性和危险性,包括利用ChatGPT调试代码或帮大学生写论文等等各种可能。我们与Gartner的副总裁、分析师Bern Elliot一起讨论了这一创新更广泛的影响以及数据和分析(D&A)领导人应该采取的什么步骤,以确保负责任地使用此类工具。
问:为什么ChatGPT会引起如此大的反响,ChatGPT与以前的对话式人工智能创新有何不同?
答: ChatGPT是当前两个 “热门”人工智能话题的完美风暴:聊天机器人和GPT3。二者结合在一起,提供了一种奇妙的引人入胜的互动方式并产生了看上去非常人性化的内容。聊天机器人和GPT3各自都是在过去五年里独立技术、重大改进的结果。
聊天机器人能够以一种看似“智能”的对话方式进行互动,而GPT3产生的输出似乎可以“理解”问题、内容和背景。二者放在一起创造了一种不可思议的谷底效应:“ChatGPT是人还是电脑?或者是一个类似人类的电脑?”ChatGPT互动有时幽默、有时深刻、有时颇有见地。
不幸的是,ChatGPT给出的内容有时也不正确,而且内容也不是基于类似人类的理解或智慧。这里的问题可能出在“理解”和“智能”这两个词上。这两个术语加载了隐含的人类含义,所以在被应用于算法时会导致严重的误解。更有用的观点是将诸如GPT一类的聊天机器人和大型语言模型(LLM)视为完成特定任务的潜在有用工具,而不是逗乐的把戏。成功取决于找到这些技术应用能为组织提供有意义的利益的途径。
问:ChatGPT的潜在用例是什么,特别是在企业中的潜在用例?
答:在高层次上,聊天机器人或对话助手提供了与信息源的策划互动。聊天机器人本身有许多用例,例如客户服务、协助技术人员找出问题等用例。
。
在高层次上,ChatGPT是一个特定的聊天机器人用例,在这一块聊天机器人的作用是与GPT信息源互动(聊天)或“交谈”。在这种情况下,GPT信息源由OpenAI针对特定领域进行了训练。模型上使用的训练数据决定了回答问题的方式。然而,如前所述,GPT也会无预测地生成错误信息,这意味着该信息只能用于可以容忍错误或有机会纠正错误的情况。
在计算机视觉、软件工程和科学研究与开发等领域里有许多像GPT的基础模型的使用案例。例如,一些基础模型可用于从文本创建图像以及从自然语言生成、审查和审计代码,包括智能合约。一些基础模型甚至在医疗保健领域用于创建新药和破译基因组序列进行疾病分类。
问:围绕ChatGPT和其他类似的人工智能模型存在哪些道德方面的问题?
答:GPT等人工智能基础模型代表了人工智能领域的一个巨大变化。这些人工智能基础模型提供了独特的好处,例如大量减少了创建特定领域模型所需的成本和时间。然而,这些人工智能基础模型也带来了风险和道德问题以及一些与之相关的问题。
复杂度:大型模型涉及数十亿甚至数万亿个参数。要训练这些模型对于大多数组织来说都是不切实际的,原因是所需的计算资源太大了,太昂贵也不环保。
权力的集中:这些模型主要由大型科技公司建立,这些公司拥有巨大的研发投资和大量的人工智能人才。这就导致了权力集中在几个大型的、财力雄厚的实体,这可能在未来造成严重的不平衡。
潜在的滥用:一些基础模式降低了内容创作的成本,这意味着创造一些与原作非常相似的深度伪造品变得更加容易了。这包括从语音和视频冒充到艺术赝品以及有针对性地攻击。由此所涉及的严重道德问题可能会损害声誉或引起政治冲突。
黑箱性质:这些模型仍然需要仔细训练,而由于模型的黑箱性质,模型可能会提供不可接受的结果。模型给出某个反应的事实基础究竟是什么通常并不明显。这就可能会在数据集的下游传播时引起偏见。这些模型的同质化会导致单点故障。
知识产权:模型是在创作语料库上训练的,如果这些内容来自他人的知识产权,那么再使用这些内容的法律先例可能是什么目前还不清楚。
问:D&A领导人如何以合乎道德的方式将人工智能基础模型纳入到自己的组织呢?
答:从自然语言处理(NLP)用例开始,例如分类、总结和非面向客户场景文本的生成,选择特定任务、预训练一些模型以避免昂贵的定制和训练。一些输出由人类审查的用例是首选。要创建一份战略文件,概述GPT等人工智能基础模型的好处、风险、机会和部署路线图。这将有助于确定特定用例的收益是否超过风险。
务必使用基于云的API做各种模型的消费,选择最小的模型,以降低操作复杂性、降低能耗并且优化总拥有成本所需的准确性和性能。优先考虑那些合适供应商,这些供应商往往会通过发布使用指南、强化执行这些指南、记录已知漏洞和弱点以及主动披露有害行为和误用情况,以促进负责任的模型部署。
好文章,需要你的鼓励
这项由加州大学圣地亚哥分校和微软研究院合作开发的REAL框架,通过程序分析反馈训练大型语言模型生成高质量代码。与传统方法不同,REAL采用强化学习将代码安全性和可维护性作为奖励信号,不依赖人工标注或特定规则。研究在多个数据集上的实验表明,REAL在保证功能正确性的同时显著提高了代码质量,有效解决了"即兴编程"中的安全漏洞和维护性问题,为AI辅助编程提供了新的范式。
加州大学伯克利分校与Meta FAIR研究团队开发了"Self-Challenging"框架,让大语言模型通过自己创建和解决任务来提升能力。该方法引入创新的"Code-as-Task"格式,包含指令、验证函数、示例解决方案和失败案例,确保生成的任务既可行又有挑战性。在工具计算、网页浏览、零售服务和航班预订四种环境测试中,仅使用自生成训练数据,Llama-3.1-8B模型性能提升了两倍多,证明AI可以通过自我挑战实现有效学习,减少对人类标注的依赖。
南洋理工大学与SenseTime Research合作提出了PoseFuse3D-KI,一种创新的人体中心关键帧插值框架。该方法将3D人体模型信息融入扩散过程,解决了现有技术在处理复杂人体动作时产生扭曲结果的问题。研究团队开发了专门的SMPL-X编码器直接从3D空间提取几何信息,并设计了融合网络将3D线索与2D姿态无缝整合。他们还构建了CHKI-Video数据集,包含2,614个视频片段及完整的人体标注。实验结果显示,PoseFuse3D-KI在PSNR上提升9%,LPIPS减少38%,显著超越现有方法。
这项研究提出了LongGuide算法,解决了大型语言模型在长文本生成任务中的局限性。研究团队发现,仅依靠上下文学习无法使模型充分掌握文本的语言和格式特性。LongGuide通过自动生成两种指导原则:度量指导原则和输出约束指导原则,显著提升了模型性能。在七种长文本生成任务中,该方法使开源和闭源模型的ROUGE-L评分平均提高约6%。LongGuide具有通用性强、易于学习、成本效益高等优点,为提升AI长文本生成能力提供了新方向。