三十多年前,红帽便洞察到开源开发和许可证能够推动更优质软件的诞生,从而加速IT创新。
经过三千万行代码的积淀,Linux不仅成为了最成功的开源软件,也成长为至今最成功的软件之一。
我们对开源原则的承诺延续至今,既体现在我们的商业模式中,也深深扎根于我们的企业文化中。
我们坚信,若采用正确的方法,这些理念同样能够在人工智能(AI)领域产生深远的影响。然而,技术界对于“正确的方法”究竟是什么,依然存在广泛的争议。
AI,特别是推动生成式AI(Gen AI)发展的大型语言模型(LLM),不能简单地与开源软件类比。
与软件不同,AI模型主要由模型权重构成,这些权重是决定模型如何处理输入以及它如何在各个数据点之间建立联系的数值参数。训练后的模型权重是通过广泛的训练过程生成的,这一过程涉及大量精心准备、混合和处理的训练数据。
尽管模型权重与软件不同,但在某些方面,它们履行的职能类似于代码。我们可以将数据类比为模型的源代码。在开源领域,源代码通常被定义为修改软件的“首选形式”。
然而,单靠训练数据无法承担这一角色,因为训练数据通常体积庞大,且复杂的预训练过程使得每一项训练数据与训练后权重及模型最终行为之间的联系显得间接且微弱。
目前,许多AI模型的改进和增强并不涉及访问或修改原始训练数据。相反,它们通常通过修改或微调模型权重来实现,这些过程也可用于优化模型性能。要确保这些模型改进能自由进行,模型权重必须以开源许可证发布,并且用户应在开源许可证下享有全部权限。
红帽认为,开源AI的最低标准是将开源许可证下的模型权重与开源软件组件相结合。这是开源AI的起点,而非最终目标。我们鼓励开源社区、监管机构和行业在训练和微调AI模型时,继续朝着更大的透明度和与开源开发原则对齐的方向努力。
这是红帽作为开源软件生态系统成员,如何在实践中参与开源AI的观点。与开源倡议组织(OSI)提出的《开源AI定义》(OSAID)不同,我们的看法并非正式定义。到目前为止,我们的观点主要是关于如何实现开源AI,并确保它对广泛的社区、企业和供应商都能实现可访问性。
我们通过在开源社区中的工作将这一观点付诸实践,其中包括由红帽主导的InstructLab项目,以及我们与IBM研究院合作的Granite开源许可证模型系列。
InstructLab大大降低了非数据科学家对AI模型的贡献门槛。通过InstructLab,各行各业的领域专家可以将他们的技能和知识贡献到InstructLab,这些贡献不仅用于内部使用,还能推动一个共享的、广泛可访问的开源AI模型供上游社区使用。
Granite 3.0模型系列覆盖了从代码生成、自然语言处理到从庞大数据集中提取洞察的广泛AI应用场景,所有这些都在一个宽松的开源许可证下进行。我们帮助IBM研究院将Granite代码模型系列引入开源世界,并继续从开源视角以及作为我们红帽AI产品的一部分支持这个模型系列。
DeepSeek最近的公告引发的关注,显示了开源创新如何在AI领域产生深远影响,尤其是在模型层面及其他相关领域。显然,DeepSeek的做法引发了一些疑虑,特别是其模型的许可证未能明确说明模型的生产过程,这进一步突显了透明度的重要性。
尽管如此,这一颠覆性创新也验证了我们对AI未来的看法:一个开放的AI生态,聚焦于更小巧、优化且开放的模型,这些模型能够根据特定企业的数据和使用场景,在全球范围内、跨越混合云环境进行定制。
开源技术和开发原则始终是我们AI产品的核心,正如它们在红帽AI产品组合中所起的作用一样。红帽OpenShift AI基于Kubernetes、KubeFlow以及符合Open Container Initiative(OCI)标准的容器,融合了众多云原生开源技术。而红帽企业Linux AI(RHEL AI)则整合了来自IBM的开源许可证Granite LLM系列和InstructLab开源项目。
红帽在开源AI领域的工作不仅限于InstructLab和Granite模型系列,它还涵盖了实现和有效利用AI所需的各种工具和平台。我们积极参与并推动越来越多的上游项目和社区,同时自主发起了多个项目,包括(但不限于):
RamaLama:简化本地管理和服务AI模型的开源项目;
TrustyAI:为构建更负责任的AI工作流提供的开源工具包;
Climatik:帮助减少AI在能源消耗方面负面影响的项目,推动AI的可持续发展;
Podman AI Lab:专注于为开源LLM模型提供实验支持的开发者工具包;
Neural Magic:收购这家公司进一步推动了我们的AI愿景,使企业能够将更小、更优化的AI模型(包括开源许可证模型)与其数据进行对接,无论数据存储在哪里,都能跨越混合云环境进行无缝连接。IT组织可以借助vLLM推理服务器来支持这些模型的决策和输出,从而构建一个以透明性和支持技术为基础的AI堆栈。
对红帽而言,开源AI在混合云中得到了真正的生命。混合云为每个AI工作负载选择最合适的环境提供了灵活性,从而能够优化性能、成本、可扩展性和安全性需求。我们的平台、目标和企业都支持这一努力,我们期待与行业伙伴、客户以及更广泛的开源社区携手合作,持续推动开源AI创新。
在AI领域,拓展开放合作的潜力巨大。我们展望的未来不仅关注模型的透明度,还包括训练过程的开放。无论是下周、下个月,还是更快(AI发展迅速),我们将继续支持并推动AI的自主化与开放性,突破开源AI的边界。
好文章,需要你的鼓励
本文探讨了一种防范通用人工智能(AGI)和人工超级智能(ASI)存在性风险的方法:将它们置于计算机仿真世界中进行测试。虽然这种方法看似合理,但存在诸多挑战。AGI可能会隐藏恶意行为,或因被欺骗而转向恶意。此外,仿真环境可能无法完全模拟真实世界,导致测试结果不准确。构建高质量仿真系统的成本和技术难度也不容忽视。文章认为,仿真测试虽有价值,但并非万能解决方案。
这项研究关注语音中的句子强调(即说话时对特定词的重音),它能传达说话者的潜在意图。耶路撒冷希伯来大学的研究团队发现,尽管现代语音语言模型进步显著,它们在理解句子强调方面表现不佳。团队创建了StressTest基准测试和Stress-17k合成数据集,并开发了StresSLM模型,使强调理解能力大幅提升。研究表明,通过特定训练策略,可以让AI不仅理解"说了什么",还能理解"怎么说的",从而捕捉人类交流中的微妙含义。
尽管AI在围棋等复杂游戏中表现出色,但在简单的井字棋游戏中却屡屡失败。研究显示,AI代理在模拟商业环境中的表现同样令人失望,经常出现幻觉、欺骗和任务未完成等问题。游戏测试为评估AI能力提供了直观方式,帮助普通用户理解AI的真实水平。面对当前AI行业的过度宣传,通过游戏化测试揭示AI的实际局限性,对于防范AI泡沫具有重要意义。
ViStoryBench是一个全面的故事可视化评估基准,由StepFun团队打造,用于测试AI将文字故事转化为连贯图像序列的能力。它包含80个多样化故事和344个角色参考,评估包括角色一致性、提示遵循度等多个维度。研究测试了20多种方法,发现UNO在开源方法中表现最佳,而商业软件如豆包和GPT-4o在提示一致性方面表现突出。该基准为故事可视化研究提供了统一标准,推动这一领域的创新发展。