多年以来,随着AI技术的发展与变革,各个行业及IT决策者都在大力投资这一领域。AI有望改变企业内的一切、转变人们的工作方式,因此对业务及企业的宏观/微观层面控制体系至关重要。而随着AI的发展演进,我们更需要关注自己的业务功能变化,将每时每刻的需求与改进融入AI解决方案。
虽然只处于试点和起步阶段,AI已经显示出无可比拟的力量与影响力。随着AI的后续发展,预计我们将迎来一波又一波更大、更广泛的变革。那么,AI到底要怎样继续改进?
随着人们对于AI的努力改进,全社会对计算及基础设施资源的需求也将同步增长。当AI真正实现全面普及之后,我们无疑需要一个更经济、更高效的环境容纳如此庞大的流程。每家企业都需要适应这些变化,并以充分的灵活度迎接新型基础设施。换言之,云技术、特别是混合云解决方案,必将成为AI的实现基础。混合云解决方案能够保证将AI基础设施需求消解为业务需求,同时从容维持并匹配技术动态。只有这样,企业才能在持续使用、开发并实现AI方案的同时,不致对自身基础设施性能造成严重影响。
下面,我们就聊聊在评估潜在合作伙伴、选择最佳平台时需要关注的几大核心因素。
核心因素一 高算力
企业需要高性能计算资源(包括CPU与GPU)探索AI领域内的种种可能性。目前大部分企业仍在AI实验阶段,所以倾向于建立强大的CPU环境处理基础AI负载。但事实证明,基于CPU的现有计算架构并不能满足深度学习流程的需求;可扩展神经网络算法的部署以及高性能网络/存储管理都对算力和数据处理密度提出了极高的要求。
核心因素二 存储容量
存储容量是一切AI基础设施的基本要求;随着数据量的增长,存储系统也必须拥有扩展能力。因此对企业来说,最重要的就是明确AI实验究竟需要何等规模的存储系统支持。只有以强大的存储扩展计划与容量管理能力为依托,企业才能从容做出实时决策;也只有这样,我们手中的AI应用才能在数据的滋养下愈发完善。
核心因素三 网络基础设施
无缝网络是AI基础设施中的又一重要组成部分。考虑到可扩展性的重要意义,企业必须建立起高带宽、低延迟的网络体系。深度学习算法高度依赖于通信能力,随着AI实验的推进与扩展,网络系统自然要同步成长与进化。对于网络这种泛用性服务,企业有必要选择一家专业的基础设施服务商,由他们在全球范围内提供服务打包与技术支持,并确保不同区域内的堆栈始终拥有良好的分布式与一致性。
核心因素四 安全性
由于AI模型往往会接触到大量来自医疗保健、金融等部门的敏感数据,因此对个人数据的安全维护就成了一大现实挑战。这些信息在本质上极其脆弱;一旦管理不当、特别是被不可靠来源所利用,则可能对使用AI模型的企业造成巨大危害。此外,如果向AI系统中添加了非必要数据,则可能引发决策和推理错误。因此,我们需要一套更安全的AI基础设施保障数据免受侵扰。
核心因素五 解决方案必须具有成本效益
这一切还只是AI模型的发展起点。随着研究工作的缓慢推进,AI本身也会变得更加复杂、开发成本随之一路飙升。各个企业必须努力找到具有成本效益的解决方案,这样才能推动流程延续与业务增长。具体来讲,企业在支撑AI探索方面势必要不断升级网络、服务器及存储等基础设施,满足AI模型的训练与推理需求。整个过程将极其昂贵,因此必须谨慎选择那些资源经济性更好的服务供应商。只有这样,企业才能更明智地规划、决策并投资于AI基础设施,保证自身在被资源支出压垮之前找到提升自身业务绩效的宝贵机会。
好文章,需要你的鼓励
CPU架构讨论常聚焦于不同指令集的竞争,但实际上在单一系统中使用多种CPU架构已成常态。x86、Arm和RISC-V各有优劣,AI技术的兴起更推动了对性能功耗比的极致需求。当前x86仍主导PC和服务器市场,Arm凭借庞大生态系统在移动和嵌入式领域领先,RISC-V作为开源架构展现巨大潜力。未来芯片设计将更多采用异构计算,多种架构协同工作成为趋势。
KAIST AI团队通过深入分析视频生成AI的内部机制,发现了负责交互理解的关键层,并开发出MATRIX框架来专门优化这些层。该技术通过语义定位对齐和语义传播对齐两个组件,显著提升了AI对"谁对谁做了什么"的理解能力,在交互准确性上提升约30%,为AI视频生成的实用化应用奠定了重要基础。
Vast Data与云计算公司CoreWeave签署了价值11.7亿美元的多年期软件许可协议,这标志着AI基础设施存储市场的重要转折点。该协议涵盖Vast Data的通用存储层及高级数据平台服务,将帮助CoreWeave提供更全面的AI服务。业内专家认为,随着AI集群规模不断扩大,存储系统在AI基础设施中的占比可能从目前的1.9%提升至3-5%,未来五年全球AI存储市场规模将达到900亿至2000亿美元。
乔治亚理工学院和微软研究团队提出了NorMuon优化器,通过结合Muon的正交化技术与神经元级自适应学习率,在1.1B参数模型上实现了21.74%的训练效率提升。该方法同时保持了Muon的内存优势,相比Adam节省约50%内存使用量,并开发了高效的FSDP2分布式实现,为大规模AI模型训练提供了实用的优化方案。