红帽推出红帽AI 3,将分布式AI推理引入生产级AI工作负载

全球领先的开源解决方案提供商红帽公司近日发布红帽AI 3(Red Hat AI 3),标志着其企业级人工智能(AI)平台的重大升级。

全球领先的开源解决方案提供商红帽公司近日发布红帽AI 3(Red Hat AI 3),标志着其企业级人工智能(AI)平台的重大升级。该平台融合了红帽AI推理服务器、红帽企业Linux AI(RHEL AI)和红帽OpenShift AI的最新创新成果,可简化大规模高性能AI推理的复杂性,帮助企业更轻松地将工作负载从概念验证推进至生产阶段,并提升AI应用相关协作效率。

随着企业逐步超越AI实验阶段,数据隐私、成本控制及多元模型管理等关键挑战开始凸显。麻省理工学院NANDA项目发布的《生成式AI鸿沟:商业AI现状》报告揭示了生产型AI的严峻现实:约95%的企业未能从约400亿美元的企业AI支出中获得可衡量的财务回报。

红帽AI 3致力于直接应对这些挑战,为首席信息官和IT领导者提供更一致、统一的体验,大幅提升其在加速计算领域的投资效益。该平台支持在混合多供应商环境中快速扩展并分布式部署AI工作负载。依托这一通用平台,企业可以提升智能体等下一代AI工作负载相关的跨团队协作效率。红帽AI 3基于开放标准构建,能够适配企业AI旅程的各个阶段,支持在任意硬件加速器上运行任意模型,从数据中心到公共云和主权AI环境,再到最远的边缘。

从训练到“实践”:向企业AI推理转型的浪潮

随着企业将AI项目投入生产,关注重点从模型训练与调优转向推理,即企业AI的“实践”阶段。红帽AI 3基于广受欢迎的vLLM和llm-d社区项目,结合红帽的模型优化能力,提供生产级大语言模型(LLM)服务,强调可扩展且经济高效的推理能力。

为帮助首席信息官充分释放高价值硬件加速的潜力,红帽OpenShift AI 3.0正式推出llm-d,该方案重新构建了大语言模型在Kubernetes中原生运行的方式。llm-d可实现智能化的分布式推理,融合Kubernetes编排的成熟价值与vLLM的出色性能,结合Kubernetes网关API推理扩展、NVIDIA Dynamo低延迟数据传输库(NIXL)及DeepEP混合专家(MoE)通信库等关键开源技术,助力企业:

  • 通过智能推理感知模型调度与解耦服务降低成本并提升响应速度
  • 借助规范化的“Well-lit Paths”简化Kubernetes环境下的大规模模型部署,实现运维简易性与出色可靠性
  • 通过跨平台支持实现出色的灵活性,在NVIDIA和AMD等不同的硬件加速器上部署LLM推理。

llm-d基于vLLM构建,将其从一款单节点高性能推理引擎,升级为分布式、一致且可扩展的服务系统。该系统与Kubernetes深度集成,旨在实现可预测的性能、可量化投资回报率,以及高效的基础设施规划。所有增强功能直接应对多变的大语言模型工作负载的挑战,并为混合专家模型(MoE)等超大规模模型服务提供助力。

协作式AI的统一平台

红帽AI 3提供统一灵活的体验,专为“构建生产就绪的生成式AI解决方案”所涉及的协作需求而设计。它为平台工程师和AI工程师提供统一平台来执行其AI战略,促进团队协作并统一工作流程,从而创造切实价值。新增功能聚焦于提升生产力与效率,帮助用户从概念验证顺利扩展到生产阶段,其中包括:

  • 模型即服务(MaaS能力基于分布式推理构建,使IT团队能够充当自身的MaaS提供商,集中提供通用模型,并为AI开发者和AI应用提供按需访问。这有助于实现更优的成本管理,并支持因为隐私或数据原因无法在公共AI服务上运行的用例。
  • AI中心赋能平台工程师探索、部署和管理基础AI资产。它提供了一个中央枢纽,包含精选模型目录(涵盖经过验证和优化的生成式AI模型)、用于管理模型生命周期的注册中心,以及可配置和监控所有在OpenShift AI上运行的AI资产的部署环境。
  • 生成式AI工作室为AI工程师提供实践环境,使其能够与模型进行交互并快速原型化新的生成式AI应用。借助AI资产端点功能,工程师可轻松发现并调用可用模型及MCP服务器——这些服务器旨在简化模型与外部工具的交互方式。内置的实验平台提供交互式无状态环境,支持对模型进行实验、测试提示词、调优参数,适用于聊天和检索增强生成(RAG)等场景。
  • 新增了经红帽验证和优化的模型,以简化开发流程。精选模型库包含热门开源模型(如OpenAI的gpt-oss、DeepSeek-R1)以及专用模型(如用于语音转文本的Whisper和用于语音助手的Voxtral Mini)。

为下一代AI智能体奠定基础

AI智能体有望改变应用的构建方式,而其复杂的自主工作流将对推理能力提出严苛要求。红帽OpenShift AI 3.0版本不仅通过其推理能力,更通过聚焦智能体管理的新特性与增强功能,持续为可扩展的代理式AI系统奠定基础。

为加速智能体创建与部署,红帽基于Llama Stack推出了统一API层(Unified API Layer,助力开发工作与OpenAI兼容的大语言模型接口协议等行业标准保持一致。此外,为推动更开放、互操作性更强的生态系统发展,红帽率先采用了模型上下文协议(MCP这项新兴的强大标准,该协议简化了AI模型与外部工具的交互方式,而这正是现代AI智能体的一项基础特性。

红帽AI 3基于现有InstructLab功能,推出了一套全新的模块化可扩展工具包,用于模型定制。该工具包提供专业化的Python库,赋予开发者更强的灵活性和控制力。该工具包依托开源项目构建,例如采用Docling进行数据处理,可将非结构化文档高效转换为AI可读格式。它还包含灵活的合成数据生成框架,并配备大语言模型微调训练中心。集成式评估中心有助于AI工程师监控并验证结果,使其能够轻松运用其专有数据,实现更精准、更具相关性的AI成果。

支持证言 

红帽AI业务部门副总裁兼总经理Joe Fernandes

“随着企业将AI从实验阶段扩展至生产阶段,他们正面临新一轮的复杂性、成本与管控挑战。红帽AI 3提供企业级开源平台,有效减少这些阻碍。通过引入llm-d分布式推理及代理式AI基础支持等新功能,我们助力IT团队在任意基础设施上,按自身需求轻松实施部署下一代AI。”

AMD服务器和企业AI高级副总裁兼总经理Dan McNamara

“随着红帽将分布式AI推理推向生产阶段,AMD很高兴能为其提供高性能的基础支持。我们携手整合了AMD EPYC™处理器的卓越效率、AMD Instinct™ GPU的强大扩展性,以及AMD ROCm™软件堆栈的开放特性,助力企业突破实验阶段,实施部署下一代AI——在本地、云端及边缘环境中,将性能与扩展性转化为切实的业务价值。”

ARSAT首席执行官Mariano Greco

“作为阿根廷的连接基础设施提供商,ARSAT需要处理海量的客户交互和敏感数据。我们需要一种解决方案,既能实现从简单自动化到‘增强智能’的跨越,又能为客户提供绝对的数据主权保障。通过在红帽OpenShift AI平台上构建代理式AI平台,我们仅用45天就完成了从需求识别到上线投产的全过程。红帽OpenShift AI不仅帮助我们提升了服务质量、缩短了工程师处理支持问题的时间,更让他们得以专注于创新和新项目开发。”

IDC全球研究集团副总裁Rick Villars

“2026年将成为企业AI的转折点——从启动AI转型,转向要求投资能带来更多可衡量、可复现的商业成果。尽管早期项目侧重模型训练与测试,但真正的价值与挑战在于通过高效、安全且经济的推理,将模型洞察转化为实际运营能力。这一转变需要更现代化的基础设施、数据及应用部署环境,配备‘开箱即用’的生产级推理能力,以应对真实场景下的规模化与复杂性挑战,尤其是在代理式AI大幅推高推理负载的背景下。成功转型为AI驱动型企业的关键,在于构建统一平台来协调混合云环境中日益复杂的工作负载,而非局限于孤岛型领域。”

NVIDIA工程AI框架副总裁Ujval Kapasi

“可扩展的高性能推理,是下一代生成式AI和代理式AI的关键。红帽AI 3内置开源的NVIDIA Dynamo和NIXL技术,提供加速推理支持,打造统一平台助力团队快速从实验阶段过渡到大规模运行先进AI工作负载和智能体。”

来源:至顶网软件与服务频道

0赞

好文章,需要你的鼓励

2025

10/15

17:20

分享

点赞

邮件订阅