云数据中心是系统计算架构的终极形式。云数据中心可以完成最密集的计算任务,例如COVID疫苗的科学建模、从数十亿的数据点开发人工智能模型等等。因此,云数据中心需要在硬件、软件和基础架构方面进行巨大的投资,而这反过来又推动了性能、效率和投资回报(ROI)方面的优化。
这些需求正在推动数据中心架构的变化,使得处理器和加速器的优化正朝着基于每一种工作负载的方向发展。我们看到的例子包括定制处理器的兴起和图形处理单元(GPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、神经处理单元(NPU)的使用以及利用定制加速器处理进入或通过数据中心的数据。更多专业加速器的使用正在兴起,其中之一名为数据处理单元(DPU)或基础架构处理单元(IPU),以下简称为DPU。DPU可用于运行数据中心内特定的工作负载,包括安全、网络管理、存储管理和其他操作功能。
利用协处理器进行内部加速其实不是什么新鲜事,而上述的DPU则将协处理器的概念提升到一个新的水平。DPU并不仅仅是一个独立的处理器。DPU是加速器,可能配有专门的或可编程的处理元件,以达到加速关键数据中心任务的目的,这样做使得主要处理元件(通常是服务器处理器)可以专门用于创造收入的任务。而且,DPU也与系统架构紧密地整合在一起,可以与主机处理器和工作负载加速器紧密合作。因此,DPU可以为数据中心的处理提供重要提升。根据Nvidia提供的一些数据,其贡献可能高达2倍之多。那么,既然云计算数据中心可以受益于DPU,企业服务器也可以受益于DPU吗?答案是肯定的。
服务器这个词对不同的人和不同的行业可能会有不同的含义,但服务器实际上只是一个连接在网络上的计算资源,通常不支持通过用户界面设备直接访问,如键盘、鼠标和显示器。具备特定用户接口的客户服务或其他服务器可以通过网络访问服务器。许多云服务器可能专门用于完成特定的功能或处理某些数据类型,企业服务器则不同,企业服务器可能负责为组织内部的各种团体执行广泛的功能。我们可以把企业服务器想象成一个组织的数字瑞士军刀。
一台企业服务器可以运行制造业的库存系统,这时候就是销售部门的客户资源管理(CRM)平台,企业服务器也可能运行采购部门的发票系统,或托管工程设计应用,或为整个组织提供办公生产力工具。企业服务器需要满足各种广泛的要求,但即便这样,DPU也是有益的,甚至在某些方面比用于云环境更有益。在企业服务器上运行的各种应用都需要提供一些基本功能,包括存储和检索数据、管理网络上的数据流并确保数据的安全性,数据可能来自于广泛的数据源和消费者,消费者同时又需要访问这些数据。而DPU则正好更好地管理这些功能。此外,DPU(例如Nvidia的Bluefield)配备了加速器,可用于加速其他功能(例如运行数据分析或使用人工智能算法、效率、网络维护)或用于维护其他企业资源,例如存储或精确的时间同步。DPU整合到企业服务器中可以提高平台的整体性能,同时,通过接管那些可能不太适合传统的基于CPU主机处理器的开销任务,进而减少服务器需要的增加。
DPU的硬件和软件仍在发展,而且发展迅速,这一点值得注意。整个行业都在努力开发和实现DPU,但不同的芯片和服务器供应商提供了不同的解决方案。目前,芯片供应商AMD(Xilinx和Pensando)、Broadcom、Fungible、英特尔、Nvidia和Marvell都提供了DPU类别的产品,但在架构和功能方面存在很大的差别。
数据中心DPU的引入正在改变数据中心未来的系统架构,正如Nvidia的黄仁勋在GTC问答环节所指出的,这只是DPU的开始。DPU的使用增加后,一些功能可能会被分解成更多的专门加速器,其发展和我们现在看到的工作负载加速器一样。我们的存储可能用一颗DPU,网络用另一颗DPU,安全又用另一颗DPU。这些功能可以在独立的芯片中实现,也可以作为单独的晶粒堆叠在一起实现。实现这些加速器的最佳方式也在随着半导体制造和封装技术的发展而变化,但很明显,DPU将成为业界宠儿。TIRIAS Research认为,DPU不仅会对云数据中心的设计产生重大影响,也会对企业服务器的设计产生重大影响。
好文章,需要你的鼓励
在AI智能体的发展中,记忆能力成为区分不同类型的关键因素。专家将AI智能体分为七类:简单反射、基于模型反射、目标导向、效用导向、学习型、多智能体系统和层次化智能体。有状态的智能体具备数据记忆能力,能提供持续上下文,而无状态系统每次都重新开始。未来AI需要实现实时记忆访问,将存储与计算集成在同一位置,从而创造出具备人类般记忆能力的数字孪生系统。
香港理工大学联合多所高校开发的Mol-R1框架,首次实现了AI在分子发现中的透明推理。该系统通过PRID方法学习专家推理模式,配合MoIA迭代训练策略,不仅能准确生成分子结构,还能展示完整思考过程。相比现有模型,Mol-R1推理更简洁高效,为药物研发等领域的AI应用提供了重要的安全保障。
OpenAI首席执行官阿尔特曼表示,公司计划在不久的将来投入数万亿美元用于AI基础设施建设,包括数据中心建设等。他正在设计新型金融工具来筹集资金。阿尔特曼认为当前AI投资存在过度兴奋现象,类似于90年代互联网泡沫,但AI技术本身是真实且重要的。他承认GPT-5发布存在问题,并表示OpenAI未来可能会上市。
蚂蚁集团AWorld团队发表突破性研究,创建动态多智能体协作系统解决AI稳定性难题。研究灵感来源于船舶导航,通过执行智能体和守护智能体的协作机制,在GAIA测试中准确率达67.89%,稳定性提升17.3%,荣登开源项目排行榜第一名。该系统为构建可靠智能系统开辟新路径,具有广阔应用前景。