至顶网软件频道消息:AWS公司宣布,其已经创建一款基于KVM的新型虚拟机管理程序,而不再继续依赖于其多年来长期使用的Xen虚拟机管理程序。
这套新的虚拟机管理程序将作为刚刚公布的新一代“C5”系列EC2实例类型的配伍方案——这一实例家族将由英特尔的Skylake至强处理器负责支持。AWS公司在其常见问题解答页面中对这批新型实例作出说明,表示“C5实例采用一套新型EC2虚拟机管理程序,其基于核心KVM技术。”
这堪称一条爆炸性新闻,因为AWS方面长期以来一直支持Xen管理程序。Xen开源项目亦从这家全球最强公有云用户的支持当中汲取到巨大能量。事实上,思杰公司自身也一直努力调整自家Xen Server以尽可能同AWS选定的这套虚拟机管理程序相匹配。
更有趣的是,AWS在新闻中宣称“着眼于未来,我们将利用这套虚拟机管理程序为其它实例类型提供动力。”这家互联网巨头在文章中同时提到,其计划“在AWS re: Invent大会的多个对话环节中披露更多相关技术细节。”
由此来看,AWS似乎要彻底跟Xen说再见了。
这套新型虚拟机管理程序也解释了为什么AWS成为最后一家采用英特尔全新Skylake至强CPU的云业务巨头——这是因为AWS方面此前曾披露称,其全新C5实例将运行在所谓“一款针对EC2实例进行优化的定制化处理器之上”。
英特尔与AWS双方皆表示,这是一款定制化3.0 GHz至强Platinum 8000系列处理器。芯片巨头曾经针对该款CPU发布过一些新闻发布层面的细节,并表示其与AWS合作开发出“使用最新版本英特尔数学内核库的优化型AI/深度学习引擎”,而且“MXnet与其它深度学习框架也都能够在Amazon EC2 C5实例上得到显著的运行优化效果。”
英特尔方面此前已经完成了多款定制化至强芯片,并将其交付甲骨文以及其它客户使用。AWS以批量形式采购CPU,因此英特尔再次采取这种设计供货方式也并不奇怪。
相比之下,转向KVM则多少令人有些惊讶。不过AWS方面显然希望通过一切可行的努力对其云体系进行性能调优。如果这意味着需要构建新的虚拟机管理程序并将其与定制化至强处理器进行对接,AWS也绝对不会犹豫。
无论在三周之后的AWS re: Invent大会上披露怎样的技术信息,AWS方面都已经为此确定好了基调,包括新的虚拟机管理程序将提供更快的数据吞吐速率——新虚拟机将在接入弹性块存储(简称EBS)的网络与传输带宽方面远超以往水平。
以下为AWS公司在其常见问题解答中作出的说明:
随着C5实例家族的推出,Amazon EC2的全新虚拟机管理程序将成为其中一款组件,用于为C5实例提供CPU与内存隔离能力。VPC网络与EBS存储资源则由作为新一代EC2实例系列内组成部分的专用硬件负责实现。
其立足于基于Linux内核的核心虚拟机(简称KVM)技术之上,但并不包括通用型操作系统组件。
换句话来说,网络与存储将在其它位置实现,而不再经由专门负责处理CPU与内存资源的虚拟机管理程序:
新的EC2虚拟机管理程序通过移除主机系统软件各组件,从而为EC2虚拟化实例提供一致的性能表现与更为充裕的计算与内存资源……其硬件使得这款新型虚拟机管理程序得以体积小巧,且不会参与到网络与存储任务的处理当中。
最终,所有新的实例类型都将采用新型EC2虚拟机管理程序。不过在近期内,根据具体平台的实际需求,仍有一部分新实例将继续沿用Xen。
运行在这一新型EC2虚拟机管理程序之上的实例支持最高27台附加PCI设备以作为EBS分卷及VPC ENI。每个EBS分卷或者VPC ENI皆作为一台PCI设备。举例来说,如果您在某一使用新型EC2虚拟机管理程序的实例中附加额外3个网络接口,则可最多向该实例中附加24个EBS分卷。
一切与EC2实例交互的公共API也将使用同样的全新EC2虚拟机管理程序。举例来说,在DescribeInstances响应的“hypervisor”字段将继续将全部EC2实例报告为“xen”,包括那些运行有新虚拟机管理程序的实例。此字段可能会在未来的EC2 API版本更新中被移除。
您可查看常见问题解答内容以了解AWS此次转移至新型虚拟机管理程序可能造成的一切影响。以下为基于KVM的新一代C5实例家族的统计数据:
每个vCPU皆为Amazon所采购的物理CPU中的一个线程。
5实例目前已经在AWS美国东部、美国西部(俄勒冈州)以及欧洲服务区内上线,并作为按需或竞价服务器资源提供。该公司承诺将在其它服务区尽快上线这一资源选项。
好文章,需要你的鼓励
亚马逊云服务部门与OpenAI签署了一项价值380亿美元的七年协议,为ChatGPT制造商提供数十万块英伟达图形处理单元。这标志着OpenAI从研究实验室向AI行业巨头的转型,该公司已承诺投入1.4万亿美元用于基础设施建设。对于在AI时代竞争中处于劣势的亚马逊而言,这项协议证明了其构建和运营大规模数据中心网络的能力。
Meta FAIR团队发布的CWM是首个将"世界模型"概念引入代码生成的32亿参数开源模型。与传统只学习静态代码的AI不同,CWM通过学习Python执行轨迹和Docker环境交互,真正理解代码运行过程。在SWE-bench等重要测试中表现卓越,为AI编程助手的发展开辟了新方向。
当今最大的AI数据中心耗电量相当于一座小城市。美国数据中心已占全国总电力消费的4%,预计到2028年将升至12%。电力供应已成为数据中心发展的主要制约因素。核能以其清洁、全天候供电特性成为数据中心运营商的新选择。核能项目供应链复杂,需要创新的采购模式、标准化设计、早期参与和数字化工具来确保按时交付。
卡内基梅隆大学研究团队发现AI训练中的"繁荣-崩溃"现象,揭示陈旧数据蕴含丰富信息但被传统方法错误屏蔽。他们提出M2PO方法,通过改进数据筛选策略,使模型即使用256步前的陈旧数据也能达到最新数据的训练效果,准确率最高提升11.2%,为大规模异步AI训练开辟新途径。