Red Hat首席执行官谈OpenShift的演变发展和最新的AI举措

在最近的Red Hat Summit峰会上,Red Hat将开源软件堆栈平台定位为企业构建和运行AI应用的首选平台。

在美国丹佛举行的Red Hat Summit峰会上,Red Hat做出了可以说是最大的一项举措,也就是将自己开源软件堆栈平台定位为企业构建和运行AI应用的首选平台。

Red Hat首席执行官Matt Hicks强调了开源在推动AI发展进步方面的作用,并宣布推出了围绕OpenShift AI和新RHEL(Red Hat Enterprise Linux)AI的一系列功能。RHEL是用于开发、测试和部署生成式AI模型的基础模型平台。

RHEL AI中还包括了IBM Research开源许可的Granite大型语言模型系列,以及通过IBM InstructLab提供的指令调整功能,该功能可以对AI模型进行微调,以提高其在特定任务上的性能以及遵循指令的能力。

Hicks在接受媒体采访时提到了OpenShift平台的发展;OpenShift AI和RHEL AI如何通过协同来降低AI训练和推理成本,最终推动企业采用AI;以及Red Hat对于那些希望从VMware迁移出来的客户的吸引力。

今年Red Hat Summit峰会上的公告是建立OpenShift之上的。请您谈一谈OpenShift平台的发展情况以及您对它的设想。

Hicks:我谈到了平台是如何分层的,如果我刚买了一台机器,启动机器的平台是什么?对我们来说,RHEL是“点亮”硬件的规范。现在,我们看到专用机器与AI结合使用,RHEL AI也将被用于“点亮”这些机器。

但在如此多的AI用例中,一台机器不算什么——您需要集群、连接和复杂的拓扑,而这正是OpenShift所能提供的。OpenShift从采用RHEL实例集群、在其上运行容器,发展到了把虚拟机作为容器运行。您可以添加特定AI的工作流,并将大型语言模型放在靠近应用的地方,它可以运行在裸机、虚拟化环境和云上。OpenShift成为了核心平台,就像vSphere、大型机或者是您围绕其构建应用拓扑的其他技术。

OpenShift是核心平台,然后在某个时候,它接触到硬件,RHEL将硬件带到平台上。我们对OpenShift的目标是让它足够强大,可以用于AI、虚拟化或容器。它是您围绕其构建技能的平台,我们正试图通过Lightspeed进行扩展,使其更简单。

在将AI功能融入OpenShift的过程中,您得到了哪些经验?

Hicks:我们在市场上看到并亲身体验到的第一个经验是,这些非常大型的模型是非常强大的,运行起来也非常昂贵。因此,我们很快意识到我们需要做一些规模较小的事情。较小的模型运行和训练起来更便宜一些。但训练非常困难——微调需要数据科学方面的技能和知识,这听上去是不可持续的,所以我们很自然而然地首先构建了OpenShift AI,如果您拥有大型语言模型,这就是一个可以让模型和应用协同、提供服务并优化训练成本的平台。

RHEL AI通过指令调整让这个路线更为清晰。我们的目标是将我们现在所做的几乎所有事情转换为指令调整的基础,因为如果融入到知识和技能库中,那么运行起来就会更容易、更快速。因此,如果您正在创建模型,OpenShift AI就会成为一个非常明确的价值主张。正如我向客户描述的那样,如果您购买了带有8个Nvidia H100的Dell PowerEdge,就可以全速运行服务器来训练您的第一个模型。但您不会止步于此——您还会开始训练第二个模型,但您需要多少个卡来进行推理和下一次训练呢?如果第二次也取得了成功,您会想要打造第三个模型,但每个卡的成本要50000美金。

而使用OpenShift AI,如果您告诉我们您想将75%的资源用于训练,将20%用于服务,剩下5%,我们将为您管理效率,以便您可以快速进行第一次实验。简单的POC和大型模型很好做,但很难投入生产。我们希望您使用较小型的开源模型进行这些POC。您可以在数据中心自己运行这些模型,使用OpenShift AI,您也可以大规模地做到这一点。

您在主题演讲的开头介绍了一些围绕AI进行的学术研究。鉴于OpenShift支持分布式环境,您对在边缘启用某种分布式训练有何看法?

Hicks:我们开源的Granite模型是在IBM的超级计算环境中构建的。这些模型在OpenShift上进行训练纯粹是因为您所说的原因,因为OpenShift非常擅长集群分布。因此,如果您要运行大型GPU任务,那么IBM恰好拥有预训练功能,没有几家公司拥有这个能力。这就是我们开始研究的地方,将OpenShift和OpenShift AI优化到客户不会尝试的最高标准。

如果我们可以做到这一点并打造出一个基础模型,那么指令调整或调优就像在公园散步一样简单。我们使用Kubernetes和OpenShift的分布式功能来构建OpenShift AI功能,并对其进行测试,就是为了在最高级别和范围上获得对产品的信心。对此我们非常乐观——因为您可以根据需要对其进行指令调整,因为OpenShift AI是可以扩展的,这就是您提到的优势。

上次我们谈话时,您提到Red Hat不会进入模型领域。但是你现在正尝试使用Granite吗?

Hicks:我觉得我已经对我们公司的人说过一百遍了,我们不会进入模型领域,因为我们没有对模型领域了如指掌的100位博士。但是IBM Research有,所以选择使用他们的知识产权,把Red Hat作为进入市场的渠道,并将其开源,这会给我们带来翻天覆地的变化。

我们在波士顿做了很多工作,IBM和麻省理工学院有着密切的合作关系。我们拥有所有需要的研究人员,他们对这个领域了如指掌。这给我们提供了一个转机,我们不仅可以开发AI操作系统,还可以开发包含多种参数大小模型的系统,可以支持我们发布的内容,因为我们现在拥有了这个领域的专业知识。

您能给我们介绍一下自去年推出以来OpenShift AI在市场上的吸引力吗?

Hicks:如果市场对本地环境训练有需求的话,OpenShift AI将是最强大的,因为公有云将拥有像Vertex AI、Bedrock和SageMaker这样的产品。这种需求的最佳代表,就是戴尔和HPE上季度财报中,面向非超大规模数据中心企业销售的GPU服务器业绩,市场对这两家厂商的设备都有很强的需求,这是一个潜在的市场。这方面你可以看到一些公开的资料,所以我确实认为,这是一个非常强大的市场,RHEL AI将放大这一点。

Red Hat首席技术官Chris Wright提到在让客户更轻松地将VMware工作负载迁移到OpenShift方面所做的努力。我知道你们与Nutanix建立了合作伙伴关系以争取VMware客户。但这显然需要很多年的时间,客户是无法在一夜之间就把所有内容都迁移到OpenShift上的,那么Red Hat所做的这些努力,目前进展如何?

Hicks:这不是我们要推动的领域,但如果客户想要迁移,我们将为他们提供服务,而且有大量入站的需求。

客户也在押注平台,在大多数情况下,他们对vSphere非常满意,并围绕它建立了一个生态系统,但我们是否有一个足够强大的平台可以成为他们未来10年的赌注?我们认为,OpenShift是一个非常强大的平台,它不仅提供了虚拟化功能,还提供了容器、裸机和AI。

这两件事对我们是有利的,但必须有客户的需求,因为我们不会逐一匹配vSphere的功能。我们将构建迁移工具包来帮助客户迁移,我们将通过与全球系统集成商合作来实现这一点,但客户必须是想要做出这种改变的。

KubeVirt是OpenShift虚拟化的底层技术,如今已经是CNCF(云原生计算基金会)的十大项目之一,因此除了必须迁移10、50或者100000台虚拟机之外,客户面临的风险很小。我们拥有强大的生态系统,可以让客户获得良好的体验,而且我们拥有一个出色的平台,是超越vSphere的。

有人担心,Red Hat可能会降低Red Hat Virtualization (RHV)的优先级,转而支持OpenShift Virtualization虚拟化。您对此有何看法?或者这是一种虚拟机管理程序中立的态度,未来也会支持Nutanix的虚拟机管理程序?

Hicks:Nutanix 是一个很好的合作伙伴,如果人们想放弃VMware,但不喜欢OpenShift,他们可以选择Nutanix,Nutanix押注于AHV及其Acropolis平台。我们也可以在其上运行OpenShift,这也是非常相似的。

谈到RHV,RHV与虚拟化产品有相似之处,而实际的虚拟机管理程序KVM与RHV和OpenShift Virtualization是完全相同的。OpenShift具有更强大的平台功能,因此我们会在这方面进行投资。但这对我们来说并不是什么大问题。如果您从RHV转移到Nutanix,我们也没问题。我们的业务是位于客户层和RHEL层之上的,OpenShift都在这些领域中。

但是如果您对RHEL和KVM感到满意,OpenShift Virtualization将是一个不错的选择,因为它为您提供了在裸机上运行OpenShift的选项,如果您的路线图中有AI,那么就可以进行AI试水并将GPU配置到集群中。

我们之前谈到过OpenShift中缺乏SBOM功能,您提到Red Hat正在研究不同的标准和方法。进展情况如何,您如何看待SBOM随着AI而演变的?

Hicks:这是与监管选择密切相关的领域之一。我们可以为您提供安全清单是一回事,如果美国政府说您必须以这种方式提供清单,那就是另外一回事了,所以我们一直有些犹豫。这项技术是有用的,我们当然也可以让它更具实用性,但在某些市场中,我们需要多大的特异性还不太清楚。所以,我们会保留一点开放性,以便我们可以调整或适应,但我们可以通过创建SBOM来解决客户当前的需求。

在AI中,我们知道我们需要类似于AI模型的CVE [常见漏洞和暴露]处理实践。现在没有人知道如何做到这一点。我们相信指令调整可以解决很大一部分问题,但不能解决所有问题。SBOM也是非常相似的。当您打造AI模型或者AI代理(它们是模型的组合)时,了解它们的来源并拥有不变的相同物料清单至关重要。我们将把它构建到OpenShift AI等工具中,就可以在其中部署更复杂的拓扑和模型,保护和了解您所部署的内容。

来源:至顶网软件与服务频道

0赞

好文章,需要你的鼓励

2024

06/04

13:11

分享

点赞

邮件订阅