AWS在过去十年里定义了云计算的运营模式,我们相信AWS也将在未来的系统里成为领头羊。AWS系统创新的秘诀在于专门的设计,可以打破低效和臃肿的集中式处理架构的束缚。我们相信,这些举措使得AWS能够适应跨云、数据中心以及近端和远端工作负载的多样性。
在本文的分析里,我们将深入探讨AWS过去的一些举措,解释他们是如何取得今日的成就,以及为什么我们认为这将导致行业的转型,我们也会讨论这些对客户、合作伙伴和AWS的众多竞争对手意味着什么。
AWS的架构之旅:通往Nitro和Graviton之路
AWS掀起了一场基础架构即服务的革命,基础架构即服务让人们可以轻松地获得可以按需部署及按需退场的虚拟机。亚马逊使用的虚拟机是高度定制的Xen版本,可以允许多个虚拟机在一台物理机上运行。管理程序的功能由英特尔公司的x86中央处理单元芯片控制。
根据亚马逊首席技术官Werner Vogels说,这种虚拟机结构导致多达30%的处理能力被浪费了,这意味着虚拟机也在支持管理程序功能和管理系统的其他部分,包括存储和网络。这些开销导致AWS决定开发定制的特定应用集成电路,以帮助加速工作负载。
AWS从2013年开始交付定制芯片,同年还与Advanced Micro Devices Inc. (AMD)芯片合作并宣布推出EC2 C3实例。随着AWS云计算规模的扩大,亚马逊对相应的性能提升并不满意,AWS看到架构上存在着限制。
这促使了AWS从2014年开始与Annapurna实验室合作。云计算巨头AWS在2015年推出EC2 C4实例。C4的ASIC优化了存储和网络卸载功能,但仍然依赖英特尔至强,英特尔至强是个控制点。
2015年,AWS斥资收购了Annapurna,据报道金额为3.5亿美元,这对于获得其未来系统设计的秘方而言只是一笔微不足道的数目。这次收购的结果是2017年出现了现代版Nitro项目。Nitro卸载卡是2013年首次推出的。
当时AWS推出了C5实例,用KVM取代了Xen,将管理程序与ASIC更紧密地耦合在一起。Vogels去年曾表示,这一里程碑式的举措卸下了剩余的组件,包括控制平面和I/O的其余部分,处理能力的近100%都用于支持客户的工作负载,而且还实现了裸机版计算,裸机版计算催生了与VMware公司的合作,使得VMware公司在AWS上推出了VMware云。
然后AWS在2018年又迈出了下一步,推出了Graviton,Graviton是基于Arm的AWS定制设计芯片。因而打破了对x86的依赖,开启了架构新时代,Graviton现在支持各种配置,可以支持数据密集型工作负载。这些举措为AWS的其他创新奠定了框架,包括为机器学习和人工智能优化的新芯片,涵括了训练、推理等芯片。
总之,AWS架构开辟了一种方法,可以卸载目前由中央处理器完成的工作。这种方法为未来奠定了基础,可以允许内存共享、内存分解和独立资源,这些都可以配置成支持云及边缘等工作负载,成本远低于通用方法所能实现的成本。
Nitro是该架构的关键。总结:AWS Nitro是一套定制硬件和软件,在基于Arm的芯片上运行,是由Annapurna催生的。AWS已将管理程序、网络和存储虚拟化迁移到专用硬件上,因而释放了CPU,使其得以更有效地运行。我们认为,这一点如此引人注目的原因是,AWS现在拥有的架构可以在庞大的整个可寻址市场的各个层面进行竞争,包括公共云、企业内部数据中心以及近端和远端边缘。
为整个行业定向
下面的图表是从企业技术研究(Enterprise Technology Research缩写为下文的ETR)的数据集里提取的数据。图表列出了目前争夺云、数据中心和边缘的未来主要参与者。我们加上了英伟达公司和英特尔。两家公司没有直接出现在ETR的调查数据里,但两家公司显然是这些领域的平台参与者。
上图数据的纵轴显示了净得分,是对支出速度的一种衡量。横轴是市场份额,是对普及性的衡量。我们在这里不打算纠缠参与者的相对位置,我们只会对各参与者给出一些评论,从AWS开始。我们上面已经说了AWS走到这一步的历程,我们相信AWS正在为未来定向。
AWS——AWS确实在大力推动从x86向旗下基于Arm平台的迁移。Patrick Moorhead在Six Five峰会上采访了AWS EC2的负责人David Brown。Brown广泛地谈了从x86到AWS基于Arm的Graviton 2的迁移。他还宣布了一项新的开发者挑战,以加速向Arm的迁移。
Brown给客户准备的甜头是40%的性价比。他举例说,一个客户运行100台服务器实例,迁移到Graviton2实例后,可以用60台服务器完成同样的工作。客户需要做一些迁移工作,但回报大。
一般来说,我们想到迁移就不免退缩。迁移的商业价值是个处决于所取得的利益减去迁移成本的函数,迁移成本必须考虑各种业务中断、代码冻结、重新培训和时间价值等变量。但在这种情况下AWS似乎正在将迁移的痛苦降到了最低。
据Brown说,对客户的好处是,AWS目前提供大约400种不同的EC2实例。今年早些时候,去年出货的新EC2实例里有近50%是基于Arm的实例。而且AWS正在努力加快从x86迁移到AWS自己的设计的步伐。
都是一些显而易见的好处。
英特尔——英特尔终于对市场力量做出了认真的回应。我们认为英特尔基本上是在借鉴Arm的玩法。我们今天就来侃一下这个事情。2015年,英特尔斥资167亿美元收购了现场可编程门阵列制造商Altera。
英特尔的Navin Shenoy同样在Six Five峰会上介绍了英特尔称之为基础架构处理单元或IPU的细节。IPU与英特尔的一切都由中央处理单元控制的规范不同。IPU基本上就是的智能网络接口卡,数据处理单元也是如此,这些都是事关卸载工作负载、分解内存和发展片上系统(SoC)和封装系统(SoP)。
但仔细想一下,英特尔在过去一周的动作——至少我们觉得——显然是为了创造一个类似于Nitro的平台。收购这个平台的基础花了167亿美元。AWS收购Annapurna只花了3.5亿美元,比一下真是有点不可思议。
Shenoy在他的演讲中表示,“我们已经在微软Azure上非常大批量地部署了使用FPGA的IPU,我们最近还陆续宣布了与百度、京东云及VMWare的合作。”
我们特别来看看VMware的情况。
VMware——VMware是这场竞赛中另一个真正突出的平台玩家。VMware在2020年宣布推出Project Monterey,Project Monterey是个基于英特尔那些FPGA的项目。VMware也是参与者,选择了与英特尔合作很可能是出于各种原因。一个原因是在VMware上运行的软件是为x86构建的,并且存在一个巨大的安装基础群。另一个原因则是,英特尔新任首席执行官Pat Gelsinger在Monterey项目酝酿期里正在领导VMware,他是英特尔的传奇人物,对未来看得很清楚。
不管怎么说,VMware拥有一个类似于Nitro的产品。在我们看来,VMware的可选性受到英特尔的限制,但至少VMware加入了游戏,而且似乎在这个领域的竞争里处于领先地位。
其他超大规模厂商
微软公司、谷歌公司和阿里巴巴是什么情况呢?我们坚信,尽管英特尔和微软之间存在的关系,微软和谷歌以及阿里巴巴都将跟随AWS的步伐开发类似Nitro的基于Arm的平台。我们认为,他们必须这样做,目的是跟上AWS的步伐。
其他数据中心商家:戴尔、思科、HPE、IBM和甲骨文
戴尔科技公司拥有VMware股权。尽管即将进行拆分,但我们预期在这方面不会有任何真正的改变。戴尔将充分利用VMware的做法,而且比其他人做得更好。
思科系统公司很有意思,思科刚刚改造了旗下的UCS,但我们没有见到任何证据表明其路线图里有类似Nitro的计划。惠普企业有限公司也是如此。这两家公司的历史和能力都和芯片有着不解的渊源。思科现在可以为运营商级的使用案例设计自己的芯片,而我们也报道过,HPE可能还是带点“机器”残余的味道。但这两家公司都很可能跟随VMware的步伐采用基于英特尔的设计。
IBM会怎么做呢?这个嘛,我们真的不知道。我们认为IBM能做的最好事情是将IBM云迁移到基于Arm的Nitro平台上。我们认为大型主机也应该迁移到Arm。现在要建个专门的大型主机CPU实在是太昂贵了。
假若我们是甲骨文公司的负责人,我们会建立或合作建立一个基于Arm的、类似Nitro的数据库云,在这样的数据库云里运行甲骨文数据库比在其他平台运行甲骨文数据库更便宜、更快、耗能更少。而且我们会走多一步,会为甲骨文云里为其他竞争数据库做优化,只在云数据库上运行表格。想象一下Snowflake在甲骨文云里运行的情景吧!
说一下FPGA——我们一直对FPGA市场不是十分感冒。诚然,FPGA并不是笔者的工作范围,但是我们从来没有觉得这些大规模的收购是合理的。英特尔收购Altera以及AMD斥资350亿美元收购Xilinx,这两次收购在我们看来都有点虚浮,而将二者与AWS的Annapurna收购相比时更是如此。我们从The Next Platform找到一份不错的FPGA市场概述报告,该报告将FPGA定位为一个正在下降的市场。我们并不觉得惊讶。
AMD至少在利用自己虚浮的股价在进行交易,但是我们真心认为Arm生态系统将日益令FPGA市场趋向式微,Arm可以更加简单地及更快速地迁移到SoC,可以具有更好的性能、灵活性、集成度和移动性。我们认为FPGA是低批量的,远不如来自Arm生态系统的可编程创新有吸引力。
我们联系了Moor Insights & Strategy的Patrick Moorhead,想了解他对AMD Xilinx交易的看法。以下是他的想法。
这是令人鼓舞的反馈。由于虚浮的市场条件和AMD股票的使用,这个交易看起来在财务上是可行的。我们觉得,如果AMD专注于将Arm组件集成到自己的设计里,则可以加速旗下业务。
我们仍然不能不再提一下亚马逊3.5亿美元收购了Annapurna,太漂亮了。令人惊叹。
英特尔对未来数据中心的设想
下面是Shenoy展示的一张图表,描绘了英特尔对未来的愿景。
我们来分解一下。上面看到的是IPU,这些IPU是嵌在所示的四个区块中的智能网卡,通过一个元件结构进行通信。通用计算在左上方,机器智能在左下方,右上方是存储服务,右下方是各种替代处理器。
这是英特尔对共享资源的看法,过去的共享资源世界里所有东西都由中央处理单元控制,现在过渡到一个更独立的、可以并行工作的资源集合。
Gelsinger谈到各种很酷的技术,这些技术将使英特尔能够合并各种接口(包括能够实现内存共享和分解的PCI 5代和CXL内存接口)及5G和6G连接等等。
Arm如何看未来
首先,Arm的营销倾向真正的技术型。但在下图里可以看到,Arm与英特尔的愿景有明确的相似之处,特别是用红色虚线标出的右侧部分。里面不同类型的处理器块是可编程的。注意两边的“高带宽内存”HBM3 + DDRS,托着处理器块,处理器块是整个系统共享的,由PCIe-Gen5、CXL或CCIX、多片式插座连接。
是,你看着这个,两套框图,觉得有什么大不了的。虽然分解、隐含共享内存和先进标准的使用有相似之处,但也有一些明显的区别。
特别是,Arm在SoC层面上,而英特尔谈的是FPGA。Arm架构Neoverse现在以测试模式发货,到2022年底将有产品进入终端市场。英特尔谈的是2025年,或最早2024年。Arm的路线图要清晰得多。而英特尔说将在10月份发布更多细节,所以也许我们会在那个时候重新调整,但对我们来说,Arm显然走得更远一些。
另一个主要区别是数量。英特尔从高端数据中心入手,据推测会计划推向下游市场的边缘。Arm则是从边缘开始的,低成本、低能耗、高性价比。Arm已经在边缘领域取得了胜利,而且根据我们之前分享的AWS数据,它在企业中的地位明显提高了。
过去的历史资料强烈表明,量是制胜的法宝。
对客户和生态系统的影响
我们来看看对于客户和合作伙伴的生态系统而言这意味着什么。
我们提出的第一点是,务必跟随消费者应用程序。消费者应用程序的功能(如图像处理、自然语言处理、面部识别、语音翻译)在今天移动领域里有些是推理功能,这些功能必将找到进入企业生态系统的途径。
云里与机器学习相关的成本其中90%涉及推理。在未来,企业中的大部分人工智能将是实时推理,当然将来的边缘人工智能也是实时推理。实时推理尚未出现在今天的企业中,因为太昂贵了,而且在消费者之外的用例也不成熟。这就是为什么AWS正在打造用于推理的定制芯片。AWS希望降低成本和增加采纳率。
第二点,应该开始做些实验,看看能用基于Arm的平台做些什么。摩尔定律正在加速,Arm在性能、性价比、成本和能耗方面都处于领先地位。例如,将一些工作负载迁移到Graviton后,就可以看到究竟推动了哪些类型的成本节约以及可以看到能向企业提供的哪些新应用。可以让几个工程师负责这项任务,看看他们在两、三周内能做些什么。你或许会收到惊喜,或者你可能会说这对我们来说太早了点,但不妨一试。你可能会中大奖。
我们还建议去和混合云供应商谈谈,看看他们是不是提供Nitro。我们分享过,VMware有一个清晰的路线图。其他战略供应商又是什么情况呢?他们的路线图是什么呢?他们从现在起的时间框架是什么,是不是会推出以专业服务为主导的定价模式、每两年推出更快的盒子等等类似Nitro及更具吸引力的软件模式等等?他们如何考虑降低你的成本和支持新的工作负载规模呢?
对于独立软件供应商而言,务必要考虑一下我们之前讨论过的那些消费者功能,例如现在汽车里所有那些移动和自动化系统以及类似生物识别技术等等。这些机器智能功能将进入你的软件。你的竞争对手正在积极地将这些功能移植到Arm。他们正在将这些类似于消费者的功能嵌入到他们的应用程序里。你在做吗?我们强烈建议你看一下,去和你的云计算供应商谈谈,看看他们能做些什么来帮助你创新、加快运行和降低成本。
什么都不做、看着市场如何发展有的时候也是一种可行的策略。但我们认为现在不是这样的时候。
好文章,需要你的鼓励
本文介绍了 Okta 公司欧洲、中东和非洲地区首席安全官 Stephen McDermid 的工作理念。他强调了与客户和合作伙伴保持密切联系的重要性,以及为所有人提供流畅体验的必要性。McDermid 还讨论了 Okta 的安全策略,包括主动监控、共享责任模式和提高内部安全文化等方面。
2024年,人工智能热潮持续高涨,企业纷纷采用AI技术,这对数据中心行业产生了深远影响。英国三大公有云巨头承诺建设更多数据中心以满足AI工作负载需求,新政府承诺降低数据中心建设障碍。然而,如何在实现发展目标的同时兼顾净零排放承诺,仍是业界面临的重大挑战。
本文概述了2024年云计算领域的重要事件和趋势。主要内容包括:超大规模云服务商财务业绩向好,人工智能需求旺盛,政府合同争议不断,混合云再受关注,以及微软等巨头面临反垄断调查等。这些事件反映了云计算市场的快速发展和日益激烈的竞争格局。
2024年,人工智能在办公效率和任务自动化方面的应用成为焦点。各大科技公司推出"副驾驶"类产品,旨在提升办公效率。同时,边缘计算AI和AI PC的发展也备受关注。尽管AI承诺提高生产力,但专家认为企业升级设备的明确需求尚不明确。文章还探讨了二手PC市场、云PC等相关话题。