Dario Gil在Think 2024大会上发表主题演讲《AI的开放性未来》
在人类的拼搏进程中,我们已经证明自己有能力通过族群当中最睿智的一批头脑提出初步概念,并在此基础之上开拓发展以加快学习速度。艾萨克·牛顿爵士还曾有过一句名言,“如果我看得更远,那是因为我站在巨人的肩膀上。”但颇为有趣的是,自从牛顿在1675年写给罗伯特·胡克的信中首次提出这句话以来,他本人也已经被广泛视为替后人提供指引与依靠的又一位巨人。
如同牛顿在物理学领域的诸多贡献一样,他的观点也反复得到历史的验证。曾几何时,数学和科学的概念是只有博士们方能掌握的前沿知识,但包括代数、几何甚至是热力学基础等概念如今甚至开始进入小学生的课堂。这种教育加速的一大关键,就在于通过示例(无论是真实存在、还是刻意设计)来演示、强化并应用有待学习的概念。
同样的,人类如今也正在将这一概念应用于生成式AI领域。随着生成式AI从实验阶段逐渐过渡到价值创造阶段,基础模型的训练方式也在不断变化。正如人类开始以更加成熟的姿态学习特定学科一样,部分团队(例如IBM研究团队与合作伙伴红帽)也开始凭借其最近发布的InstructLab来改进生成式AI模型的学习方式。通过此举,他们展示了基础模型如何针对特定任务实现显著的定制化加速效果。
解锁新的训练方式
InstructLab是一个开源项目,旨在将变更整合进大模型之内、同时保证无需彻底重新训练整个基础模型,从而降低对大模型的微调成本。
根据IBM公司最近发布的博文,实现这一目标的关键不仅在于使用人工整理的数据和示例,更在于使用大模型生成的高质量合成示例来增强数据和训练素材,确保这些示例能够反映现实世界中的模式。如同人类一样,这些示例为学习主题提供了坚实的基础,从而显著改善了模型在特定领域中的表现,同时保证无需完全重新训练核心模型。这些合成数据示例能够帮助企业节约收集真实数据所需要的时间、精力和资金。通过利用合成数据,InstructLab技术将自定义模型提升到了新的水平之上。
而借助最近发布的Granite模型家族,IBM得以使用InstructLab将代码生成得分提高20%,同时缩短了实现此等质量改进的时间周期。对IBM研究总监Dario Gil在今年Think大会上的主题演讲做出总结的博文就提到,“当初IBM利用Granite编码模型在训练中学习将COBOL翻译成Java时,前后共进行了14轮微调,总计耗时达9个月。而使用InstructLab,研究团队在一周之内就添加了新微调的COBOL技能,且只需一轮微调即可实现更佳性能。”
Dario Gil在Think 2024大会的主题演讲中,介绍了InstructLab实现的训练改进成效。
之所以能够取得亮眼成果,依靠的是使用人类编写的COBOL-Java配对程序示例作为种子数据,之后再使用InstructLab将IBM Z手册及各类编程教科书转换为额外的、以合成方式生成的COBOL-Java配对以增强种子数据。完成之后,即可将新数据输入核心Granite模型,从而实现上述微调加速效果。
这里解释一下,Granite模型是IBM打造的大语言模型(LLM)家族,旨在提高人类程序员的生产力。这些大模型拥有不同的参数规模,并可将生成式AI应用于多种模态,包括自然语言和代码。Granite基础模型还在接受微调以创建助手,帮助开发者将代码从旧语言翻译成现代语言、调试代码并可根据简单的英语描述编写新的代码。由于IBM专注于开发企业级生成式AI,所以Granite模型家族不仅具备代码生成数据集,还在涉及学术、法律和金融等内容的数据集上接受了训练。
站在巨人的肩膀上
很明显,对新型基础模型的大规模训练能力,将对生成式AI乃至人类对于此类模型的实际用途产生深远的影响。现在是时候进一步发挥这种影响,让已经被应用于现实用例及应用场景的基础模型再迈出跨越性的一步。事实证明,这些用例和应用程序可以提供切实价值,特别是为企业创造出新的可能性。然而,以往开发此类基础模型的标准训练方法需要消耗大量数据中心资源,也就直接对应着海量的资本与运营投入。为了让这些基础模型真正兑现生成式AI做出的承诺,企业需要重新审视自己的模型训练过程。具体来讲,要想让AI模型得到大规模部署,微调技术必须得到持续发展,从而以更低成本引入来自更多特定领域的数据。从目前展示的结果来看,IBM和红帽的InstructLab项目似乎正在做出有益的探索。相信时间最终将告诉我们,站在巨人肩膀上的新时代企业到底能在这条路上走多远。
好文章,需要你的鼓励
随着IT成为企业运营的核心支撑,IT服务台的重要性日益凸显。现代ITSM平台已从简单的帮助台发展为复杂的管理系统,集成了工单跟踪、资产管理、性能监控等功能。这些平台的核心是工单门户,确保请求得到及时处理。许多产品强调自助服务功能和AI集成,通过智能路由、预测分析和生成式AI来提高问题解决效率。本文详细介绍了21款主流ITSM工具,帮助企业选择适合的解决方案。
韩国AI研究院团队深入研究了大型语言模型的置信度评估机制,发现AI有时会对错误答案表现出过度自信的"幻觉"现象。研究揭示了AI内部"置信度计算器"的系统性偏差,提出了"内部一致性检测"方法来识别AI的真实确信程度,为开发更可靠的AI系统提供了重要科学基础。
思科与英伟达、VAST Data合作推出安全AI工厂,整合服务器、GPU和存储设备为企业提供一体化AI基础设施。该方案采用融合基础设施形式,以AI POD作为核心组件,搭载英伟达RTX PRO 6000 Blackwell GPU和思科UCS服务器。存储方面支持NetApp、Pure Storage或VAST Data产品。VAST声称其InsightEngine能够加速RAG管道,将响应延迟从分钟级降至秒级,支持企业级智能体AI应用。
苹果公司研究团队通过创新的GSM-Symbolic测试方法,发现当前先进AI系统在数学推理方面存在严重缺陷。研究表明,AI虽然在标准测试中表现优异,但面对表述稍有变化的同类问题时准确率显著下降,暴露出其缺乏真正的逻辑理解能力,主要依赖模式匹配而非推理。这项发现为AI评估提供了新标准,并为未来开发更可靠的AI推理系统指明了方向。