ZD至顶网软件频道消息:上周,OpenStack发布了Octata,今天,我们采访了OpenStack基金会执行董事Jonathan Bryce和首席运营官Mark Collier,谈到了这次发布的三个关键点:Cell v2、Placement API和Resource Scheduler、OpenStack扩展的容器支持。
Cell v2带来了一个资源管理的新架构。Bryce解释说,直到推出Ocata,Nova计算模块都是讲资源管理调用汇集到单一API点的,这种机制开始遇到了可扩展性的问题。
“上一代采用单一API端点、单点进入计算云的概念。如果你最终要扩展到数千台物理服务器的话,这个单一API入口点就必须与所有这些服务器进行通信,”Bryce说。
网络延迟本身就会成为这个模式的一个难点,所以OpenStack开发者用一年时间将单个端点打破成为更易于管理的块。
“现在,你可以有数百个服务器的更小的块,这样每个就可以在一个‘单元’操作,并且可以汇聚成一个聚合的API。”
对最终用户来说,这个环境仍然看起来像是一个“无限资源池”,但是数据中心操作者可以以“一种更具可扩展性、更合理的方式”进行管理。
Cell v2解决了OpenStack的两个关键方面的可扩展性:数据库和消息队列。例如,如果把一个1000个主机的部署分为两个单元,每个单元内有500个主机,那么数据库和消息队列就相对较小——流量也会相应减少。
除了可扩展性之外,还有弹性方面的好处,因为在一个单元内丢失数据库或者消息不会影响另一个单元。
Cell v2还可以解决日益增长的复杂性:如果你在一个环境中使用裸机,在另一个环境中使用虚拟机,这两个环境聚合起来这样每个单元就都是同构的。
Placement API和Resource scheduler
Resource Scheduler软件可以接收虚拟机配置请求,并让一台服务器来接受这个请求,这是Bryce强调的这次发布的另一个重点功能。
在Ocata中,“Placement API默认用于管理Nova调度”。
修改的原因之一,是私有云已经扩大了其范围,他说。“以前,私有云就只关注于虚拟机的自动化。”
“现在,私有云可用于虚拟机、容器和裸机,运行Web应用、移动应用、网络功能虚拟化(NFV)用于电信和像SAP这样的企业软件。”
这些工作负载有不同的要求,所有这个资源调度器不止是把主机视为相同的——它需要了解工作负载的要求,选择合适的主机池。
“例如,如果你想要运行电话呼叫或者移动数据,你需要特定的网络设备来实现网络功能虚拟化。”
这时候Placement API就发挥作用了:它允许管理员“在配置工作负载的时候智能地请求特定属性”。电话呼叫可以运行在特定的服务器配置,机器学习则需要带有GPU的服务器,Web应用可以部署在通用服务器。
除了赋予调度器更丰富的资源之外,还有其他好处。
Bryce说,在Placement API之前,“如果你想要做复杂的事情,你就必须使用代码。”
“Placement API解决了这个问题,而且不止是虚拟化——包括虚拟机、裸机服务器、虚拟存储和网络的位置信息。”
这还提高了系统管理员对环境的可见性——这让Placement API更适合用于小规模云环境中,因为“你关心你的清单在什么位置,以及在哪运行了什么”。
让容器更简单
基于容器的部署和管理工具一直是各种活动的温床,OpenStack称Zun(容器管理)、Kolla(部署工具)以及Kuryr(容器网络)这些都在贡献者数量方面有大幅增长。
“在过去一年中,我们开始看到Kubernetes、Docker和OpenStack之间的很多连接。”
“这是Newton的一大主题,而且现在我们看到了在Ocata中的进展。”
他说,容器化和虚拟化正在走到一起作为可以结合使用的工具,而不是作为独立的技术。
使用OpenStack来管理计算、存储、安全和多租户,然后将其向上呈现给环境就像是Kubernetes是高可扩展的,他说。
对容器环境更好的控制还有助于那些系统需要符合安全及法规要求的企业。
“这将容器带入了企业网络中,能够支持网络团队的现有工作流。”
Mark Collier罗列了在即将到来的Pike发布周其中值得关注的其他工作。
他说,Cola生命周期管理环境将帮助中小企业通过将工作负载从超大规模云卸载到私有环境中节约成本。
好文章,需要你的鼓励
南洋理工大学研究团队开发了WorldMem框架,首次让AI拥有真正的长期记忆能力,解决了虚拟世界模拟中的一致性问题。该系统通过记忆银行存储历史场景,并使用智能检索机制,让AI能准确重现之前的场景和事件,即使间隔很长时间。实验显示在Minecraft和真实场景中都表现出色,为游戏、自动驾驶、机器人等领域带来广阔应用前景。
AWS通过升级SageMaker机器学习平台来扩展市场地位,新增观测能力、连接式编码环境和GPU集群性能管理功能。面对谷歌和微软的激烈竞争,AWS专注于为企业提供AI基础设施支撑。SageMaker新功能包括深入洞察模型性能下降原因、为开发者提供更多计算资源控制权,以及支持本地IDE连接部署。这些更新主要源于客户需求,旨在解决AI模型开发中的实际问题。
MTS AI研究团队提出RewardRanker系统,通过重排序模型和迭代自训练显著提升AI代码生成质量。该方法让13.4B参数模型超越33B大模型,在多种编程语言上表现优异,甚至在C++上超越GPT-4。通过引入困难负样本和PPO优化,系统能从多个代码候选中选出最优方案,为AI编程助手的实用化奠定基础。