AWS首席技术专家,揭秘如何为生成式AI打造技术堆栈

AWS亚太和日本首席技术专家Olivier Klein,深入介绍了如何构建技术堆栈简化生成式AI采用,解决运行生成式AI工作负载成本、安全性和隐私相关问题。

生成式AI预计将成为商业和IT领域的一个游戏规则改变者,推动亚太地区的组织加紧努力以利用这项技术的变革潜力。

凭借生态系统实力以及云计算和生成式AI之间的共生关系,AWS、微软和谷歌等超大规模企业预计将成为这个市场的主导力量。

近日,AWS亚太和日本首席技术专家Olivier Klein在接受采访的过程中,深入介绍了公司如何构建技术堆栈简化生成式AI采用,同时解决了运行生成式AI工作负载成本、安全性和隐私相关的常见问题,以及对新兴用例的支持。

问:首先请您详细介绍一下AWS是如何帮助客户利用生成式AI功能的。

Klein:首先,我们的愿景是让AI民主化,包括机器学习和生成式AI。我们的方法与别人有点不同。我们相信,不会有一种模型能够统治所有这些模型,我们希望为客户提供灵活性和不同一流模型的多重选择。

我们通过Amazon Bedrock不仅提供了Titan等Amazon模型,还提供了A121 Labs的Jurassic、Cohere和Stability AI等其他模型,我们还向Anthropic投资了40亿美金,这样我们就可以共同构建一些东西,并在Bedrock平台上提供最新的、最强大的功能。

您还可以直接集成到我们现有的数据存储中,特别是矢量数据库中,从而可以把Amazon RDS、PostgreSQL和Amazon Aurora数据库中的客户数据和交易数据输入到您自己的大型语言模型中。然后,您可以通过检索增强生成(RAG)来微调模型,在其中使用来自实时数据库中额外的数据来提供初始提示内容,例如让您能够即时为客户提供个性化的或者调优的回复内容。

所有这些都是在您环境下虚拟私有云(VPC)中安全且私密运行的,因此可以完全控制和拥有数据以及重新训练模型的方式,这对于我们很多客户来说是非常重要的。

与此同时,我们会不断致力于提升成本效益,这一点可以追溯到我们的电子商务业务,即为客户提供选择和灵活性,并为客户节省成本。除了生成式AI模型之外,我们还提供多种硬件选择,无论是英特尔的Habana Gaudi、最新的Nvidia GPU还是我们自己的定制芯片(例如AWS Trainium),其成本效益比同类GPU实例高出50%。我们的第二代AWS Inferentia成本效益也比之前的芯片高出了40%。

最重要的是,我们还拥有特定案例的AI服务,例如Amazon Personalized、Amazon Fraud Detector和Amazon Forecast,让您能够使用和Amazon.com一样的预测和欺诈检测功能。例如,我们还发布了AWS Supply Chain,将机器学习功能叠加在您的ERP系统上。在生成式AI领域我们还有Amazon CodeWhisperer之类的东西,这是一个AI编码助手,可以在您的环境中对软件片段进行训练。

您会看到我们还为特定行业提供了更多的解决方案。例如,AWS HealthScribe使用生成式AI帮助临床医生通过患者与临床医生的对话记录更快地进行临床记录。这在远程医疗环境中是非常有用的,但也适用于面对面的情况。我设想未来我们将与更多合作伙伴展开合作,提供更多针对特定行业的基础模型。

问:当谈到开源模型时,AWS是否允许客户引入自己的模型并使用他们在Bedrock中的数据来训练这些模型?

Klein:有各种各样的情况。我们提供了其中一些基础模型,最近还添加了Meta的Llama,让Bedrock成为第一个为您提供llama的完全托管服务。所有这些基础模型也可以在Amazon SageMaker中使用,您可以引入并微调特定的模型,例如Hugging Face中的模型。您还可以借助SageMaker选择创建不基于Bedrock基础模型的其他模型。SageMaker能够进行无服务器推理,因此您可以在使用量激增的时候纵向扩展您的服务。

问:越来越多的企业正在运行分布式架构,AI也可能会效仿这种方式。AWS如何为那些可能希望在边缘进行更多推理用例的客户提供支持?他们能否利用AWS构建的分布式基础设施?

Klein:当然。这实际上是一个连续体,从云中的训练模型开始,推理可以在本地区域中完成,也可能在Amazon Outpost、您自己的数据中心或者您的手机上完成。我们在SageMaker Jumpstart中提供了的一些模型(例如Falcon 40B,一个包含有400亿个参数的模型)可以在设备上运行。我们的策略是支持通常在各个区域完成的训练,并提供一些服务让您可以在边缘运行,其中一些可能会集成到我们的物联网或者应用同步服务中,这要取决于具体的用例。

问:就像是Greengrass是吗?

Klein:是的,Greengrass是一个很好的推出模型的方式。如果您经常需要在边缘进行预处理,这是需要一定处理能力的。您不太可能在Raspberry Pi上运行模型,因此您始终需要连接回云端,这时候Greengrass就是一个完美的示例。我们还没有客户这样做,但从技术角度来看,这是可行的。我可以预见的是,随着越来越多的大型语言模型进入移动应用,这一点会变得也来越重要。

问:其中许多用例都是适合5G边缘部署的吗?

Klein:你说得非常对。AWS Wavelength将让您能够在边缘运行并利用电信公司的蜂窝塔。如果我是一家软件提供商,特定模型在5G蜂窝塔覆盖范围内的边缘位置运行的话,那么该模型可以以非常低的延迟连接回云端。所以这是有道理的。您可以看看Wavelength,它就是我们和电信合作伙伴提供的一种Outpost部署。

问:AWS有丰富的独立软件供应商(ISV)合作伙伴生态系统,例如Snowflake和Cloudera等,它们都在AWS平台之上构建了自己的服务,这些公司还进入到生成式AI的领域,将数据平台打造成一个客户可以做训练的地方。那么,您是如何看待AWS正在做的事情与您的一些合作伙伴甚至您的客户在该领域所做的事情之间的动态变化?

Klein:我们和Snowflake以及Salesforce有着良好的合作关系,后者的Einstein GPT就是在AWS上进行训练的。Salesforce直接与AWS AppFabric进行了集成,后者是一项连接SaaS合作伙伴的服务,而且配合Bedrock,我们可以与SaaS合作伙伴一起支持生成式AI。我们的一些合作伙伴已经推出了模型,但我们也在底层进行创新,以降低训练和运行模型的成本。

问:HPE一直把他们的超级计算基础设施定位为能够比超大规模基础设施更高效地运行生成式AI工作负载。AWS也有高性能计算功能,那么您对高性能计算或者超级计算资源如何更有效地处理生成式AI工作负载有何看法?

Klein:我很高兴您提出这个问题,因为细节决定成败。当您考虑高性能计算的时候,节点之间的距离是很重要的。节点之间的距离越远,相互通信时损耗的时间就越多。我们通过AWS Nitro等设计AWS基础设施的方式来解决这个问题,它是出于安全原因而设计的,可以卸载虚拟机管理程序功能以加快网络平面上的通信速度。

还有AWS ParallelCluster,该服务会勾选Amazon EC2功能中的所有复选框来创建一个集群,该集群允许您通过EC2置放组进行低延迟节点间通信,这意味着我们能够确保这些虚拟机的物理位置彼此靠近。一般来说,为了可用性,您希望这些虚拟机离得更远一些,但在高性能计算场景中,则是越近越好。

我要补充的一件事是,您仍然可以获得灵活性和规模等好处,以及即用即付模式,我认为这正在改变训练工作负载的游戏规则。而且,如果您考虑到需要存储在内存中的大型语言模型,那么你的内存越接近计算就越好。您可能已经看到了有关Amazon Redis和ElastiCache的一些公告,以及Redis已经被嵌入到Bedrock中,为您提供了一个大型且可扩展的缓存,您可以在其中存储和执行大型语言模型。

因此,您不仅可以获得可扩展性,还可以灵活地将数据卸载到缓存中。出于训练目的,您希望在尽可能靠近尽可能多节点的地方运行模型,可一旦您训练了模型,您就需要将其托管在内存中的某个位置,而且这个位置是具有灵活性的,因为您不想坐拥一个庞大的永久集群却只是为了做一些查询。

问:对于许多组织来说生成式AI还处于早期阶段。在这方面,您和客户进行了哪些关键的对话?

Klein:我们会有一些共同的主题。首先,我们始终是以安全和私密的方式设计服务的,以解决客户对于他们的模型或他们的数据是否用于再训练的担忧。

常见问题之一,是如何微调和自定义模型以及动态注入数据。现有模型是否能够灵活地、安全地、私密地引入您的数据,并且只需单击按钮即可与Aurora数据库进行集成?从商业角度来看,我们认为生成式AI的相关性是最高的。

这就是客户体验的角度。您借助Agents for Bedrock可以通过大型语言模型执行预定义的任务,因此如果与客户的对话以某种方式进行,您可以触发工作流程并更改他的客户资料等。在幕后,有一个被执行的AWS Lambda函数,但您可以根据大型语言模型驱动的对话来定义它。

关于如何将生成式AI集成到现有系统中,这也存在很多问题。他们不想让生成式AI机器人在旁边,然后让他们的代理复制并粘贴答案。我们今天看到的一个很好的例子就是在呼叫中心,我们的客户正在转录对话并将其输入他们的Bedrock LLM中,然后为代理提供潜在的答案以供他们进行选择。

来源:至顶网软件与服务频道

0赞

好文章,需要你的鼓励

2023

10/24

11:05

分享

点赞

邮件订阅