多年以来,随着AI技术的发展与变革,各个行业及IT决策者都在大力投资这一领域。AI有望改变企业内的一切、转变人们的工作方式,因此对业务及企业的宏观/微观层面控制体系至关重要。而随着AI的发展演进,我们更需要关注自己的业务功能变化,将每时每刻的需求与改进融入AI解决方案。
虽然只处于试点和起步阶段,AI已经显示出无可比拟的力量与影响力。随着AI的后续发展,预计我们将迎来一波又一波更大、更广泛的变革。那么,AI到底要怎样继续改进?
随着人们对于AI的努力改进,全社会对计算及基础设施资源的需求也将同步增长。当AI真正实现全面普及之后,我们无疑需要一个更经济、更高效的环境容纳如此庞大的流程。每家企业都需要适应这些变化,并以充分的灵活度迎接新型基础设施。换言之,云技术、特别是混合云解决方案,必将成为AI的实现基础。混合云解决方案能够保证将AI基础设施需求消解为业务需求,同时从容维持并匹配技术动态。只有这样,企业才能在持续使用、开发并实现AI方案的同时,不致对自身基础设施性能造成严重影响。
下面,我们就聊聊在评估潜在合作伙伴、选择最佳平台时需要关注的几大核心因素。
核心因素一 高算力
企业需要高性能计算资源(包括CPU与GPU)探索AI领域内的种种可能性。目前大部分企业仍在AI实验阶段,所以倾向于建立强大的CPU环境处理基础AI负载。但事实证明,基于CPU的现有计算架构并不能满足深度学习流程的需求;可扩展神经网络算法的部署以及高性能网络/存储管理都对算力和数据处理密度提出了极高的要求。
核心因素二 存储容量
存储容量是一切AI基础设施的基本要求;随着数据量的增长,存储系统也必须拥有扩展能力。因此对企业来说,最重要的就是明确AI实验究竟需要何等规模的存储系统支持。只有以强大的存储扩展计划与容量管理能力为依托,企业才能从容做出实时决策;也只有这样,我们手中的AI应用才能在数据的滋养下愈发完善。
核心因素三 网络基础设施
无缝网络是AI基础设施中的又一重要组成部分。考虑到可扩展性的重要意义,企业必须建立起高带宽、低延迟的网络体系。深度学习算法高度依赖于通信能力,随着AI实验的推进与扩展,网络系统自然要同步成长与进化。对于网络这种泛用性服务,企业有必要选择一家专业的基础设施服务商,由他们在全球范围内提供服务打包与技术支持,并确保不同区域内的堆栈始终拥有良好的分布式与一致性。
核心因素四 安全性
由于AI模型往往会接触到大量来自医疗保健、金融等部门的敏感数据,因此对个人数据的安全维护就成了一大现实挑战。这些信息在本质上极其脆弱;一旦管理不当、特别是被不可靠来源所利用,则可能对使用AI模型的企业造成巨大危害。此外,如果向AI系统中添加了非必要数据,则可能引发决策和推理错误。因此,我们需要一套更安全的AI基础设施保障数据免受侵扰。
核心因素五 解决方案必须具有成本效益
这一切还只是AI模型的发展起点。随着研究工作的缓慢推进,AI本身也会变得更加复杂、开发成本随之一路飙升。各个企业必须努力找到具有成本效益的解决方案,这样才能推动流程延续与业务增长。具体来讲,企业在支撑AI探索方面势必要不断升级网络、服务器及存储等基础设施,满足AI模型的训练与推理需求。整个过程将极其昂贵,因此必须谨慎选择那些资源经济性更好的服务供应商。只有这样,企业才能更明智地规划、决策并投资于AI基础设施,保证自身在被资源支出压垮之前找到提升自身业务绩效的宝贵机会。
好文章,需要你的鼓励
惠普企业(HPE)发布搭载英伟达Blackwell架构GPU的新服务器,抢占AI技术需求激增市场。IDC预测,搭载GPU的服务器年增长率将达46.7%,占总市场价值近50%。2025年服务器市场预计增长39.9%至2839亿美元。英伟达向微软等大型云服务商大量供应Blackwell GPU,每周部署约7.2万块,可能影响HPE服务器交付时间。HPE在全球服务器市场占13%份额。受美国出口限制影响,国际客户可能面临额外限制。新服务器将于2025年9月2日开始全球发货。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
安全专业协会ISACA面向全球近20万名认证安全专业人员推出AI安全管理高级认证(AAISM)。研究显示61%的安全专业人员担心生成式AI被威胁行为者利用。该认证涵盖AI治理与项目管理、风险管理、技术与控制三个领域,帮助网络安全专业人员掌握AI安全实施、政策制定和风险管控。申请者需持有CISM或CISSP认证。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。