北京时间2023年7月5日上午,2023全球数字经济大会主论坛在北京国家会议中心开幕。在探讨主题为:围绕AI大模型的未来格局的高端对话环节,昆仑万维科技股份有限公司CEO方汉先生分享了昆仑万维开发的AI大模型在B端和C端领域的应用前景。方汉表示,昆仑万维是从2020年开始做预训练大模型的研发,是国内最早走技术路线的企业之一。
在B端领域,方汉认为数据处理和收集是目前最主要的工作。他解释说,在进行大模型预训练时,需要将所有数学题的公式转换为文本格式,并附上解题过程。随后,这些数据被输入到模型中,以使大模型真正掌握人类解题的能力。对于金融、法律、能源等行业,方汉强调大模型企业的重要任务是协助将这些行业的专有数据转换为文本格式,因为大模型只能理解文本格式的数据,而图表和公式都需要转换成文字描述。
此外,方汉还强调需要记录各行各业的商业逻辑和技术逻辑,将所有逻辑文本化后输入到大模型中,以实现大模型在各行各业中的落地。他认为这是一项艰巨的任务,但相信所有从事大模型研发的企业都在紧锣密鼓地进行这项工作。
在C端领域,方汉指出用户主要使用大模型进行工作和娱乐。在工作方面,大模型可以助力个人信息处理。通过将全世界使用各种语言撰写的人类知识转化为中文,并提供给C端客户,大模型可以在各种办公、公文写作、程序编写和学习等领域提供卓越的辅助。在娱乐方面,方汉预计,在未来3-5年内,大模型将产生更多的端到端内容制作工具,彻底改变文学、音乐、漫画、动画、短视频、长视频和影视等行业的内容生产形式和流程。这将使更多人无门槛地进入内容创作领域,极大丰富人类的娱乐生活。
好文章,需要你的鼓励
这项由加州大学圣地亚哥分校和微软研究院合作开发的REAL框架,通过程序分析反馈训练大型语言模型生成高质量代码。与传统方法不同,REAL采用强化学习将代码安全性和可维护性作为奖励信号,不依赖人工标注或特定规则。研究在多个数据集上的实验表明,REAL在保证功能正确性的同时显著提高了代码质量,有效解决了"即兴编程"中的安全漏洞和维护性问题,为AI辅助编程提供了新的范式。
加州大学伯克利分校与Meta FAIR研究团队开发了"Self-Challenging"框架,让大语言模型通过自己创建和解决任务来提升能力。该方法引入创新的"Code-as-Task"格式,包含指令、验证函数、示例解决方案和失败案例,确保生成的任务既可行又有挑战性。在工具计算、网页浏览、零售服务和航班预订四种环境测试中,仅使用自生成训练数据,Llama-3.1-8B模型性能提升了两倍多,证明AI可以通过自我挑战实现有效学习,减少对人类标注的依赖。
南洋理工大学与SenseTime Research合作提出了PoseFuse3D-KI,一种创新的人体中心关键帧插值框架。该方法将3D人体模型信息融入扩散过程,解决了现有技术在处理复杂人体动作时产生扭曲结果的问题。研究团队开发了专门的SMPL-X编码器直接从3D空间提取几何信息,并设计了融合网络将3D线索与2D姿态无缝整合。他们还构建了CHKI-Video数据集,包含2,614个视频片段及完整的人体标注。实验结果显示,PoseFuse3D-KI在PSNR上提升9%,LPIPS减少38%,显著超越现有方法。
这项研究提出了LongGuide算法,解决了大型语言模型在长文本生成任务中的局限性。研究团队发现,仅依靠上下文学习无法使模型充分掌握文本的语言和格式特性。LongGuide通过自动生成两种指导原则:度量指导原则和输出约束指导原则,显著提升了模型性能。在七种长文本生成任务中,该方法使开源和闭源模型的ROUGE-L评分平均提高约6%。LongGuide具有通用性强、易于学习、成本效益高等优点,为提升AI长文本生成能力提供了新方向。