人工智能的浪潮汹涌而来,大模型如同一座座拔地而起的数字高峰,预示着一个全新时代的到来。然而企业构建这些高峰的基石,却是一个常常被忽视的名字——智算平台。如同GPT-4的诞生离不开强大的算力支撑,大模型的训练和推理都需要一个高效、稳定的智算平台作为基石。这其中既蕴藏着巨大的机遇,也充满了挑战与困惑。
长期以来,人工智能与超级计算似乎是两个独立的领域。然而,随着大模型训练对算力需求的指数级增长,二者之间的界限逐渐模糊。并行科技董事长陈健一针见血地指出:“AI训练的本质就是超算,超算也并不仅仅是CPU的超级计算机。超算架构、以GPU为核心的算力平台成为大模型训练的必备基础设施。”然而,传统的云服务平台在面对大模型训练时却显得力不从心,其根源在于未能解决算力卡之间性能的问题,导致通信占比过高,无法满足大模型对算力的极致追求。
并行科技董事长陈健
“夕发朝至”,智算推动的创新
赛力斯汽车平台技术体系总监石荡赫表示:“计算机辅助工程(CAE)的广泛应用让车企能在碰撞安全、强度耐久、震动、测试、生态、自动驾驶等方面实现全面创新,而这些需要足够智算的支持。”
这从另一个角度揭示了企业在算力需求上出现了根本性的转变。赛力斯为实现“夕发朝至”的目标——即工程师在下班前提交计算任务,第二天早上就能获得计算结果,不仅需要满足企业的全量业务需求,也要释放原来可能不敢想象的潜在业务需求,还要满足高效的开发要求。赛力斯与并行科技合作打造了基于混合弹性云架构的高性能计算平台,这一平台整合了集团内部算力资源,并结合自研的智能化仿真平台,实现了云端资源的统一调度。
陈健客观地总结道:“工程计算比科学计算复杂度高很多,对算力需求上用户不光考虑能不能算出来,性能好不好,它更多考虑的是快速响应的能力,这将直接影响企业新产品的上市周期。”
从“超算”到“智能超算”,用户关注极致性价比
面对大模型训练带来的算力挑战,传统的超算平台显然无法满足需求。陈健提出了“智能超算”的概念,即面向人工智能的超算。他认为,超算用户最关心的并非是能否完成计算,而是能否以最快的速度、以最低成本完成计算。
在大模型训练的两个主要场景——训练(预训练、微调)和推理中,不同的算力平台展现出不同的优势。H100凭借其强大的计算能力成为大规模训练的首选,而4090则凭借其优异的访存性能在中、大规模推理中占据优势,但只有24G显存却只适合较小的模型推理,中、大规模的推理H20更适合。而昇腾系列则凭借其高性价比在大模型训练领域崭露头角。
并行科技通过多年的超算经验,总结出了一套独特的应用运行特征分析方法:通过高精度、低负载采集数据,分析应用类型,并根据用户应用预测不同算力平台的性能表现,以此优化、适配算力资源,以实现最具性价比的大模型/算力匹配。例如,通过分析预测出H20与H100计算性能差了6倍,但在推理方面H20性能与H100相当,而实际测试结果也证实了这一预测的准确性。
智算平台,未来已来
大模型的出现,将人工智能推向了一个新的高度,也对算力平台提出了更高的要求。从“超算”到“智能超算”,不仅是技术上的升级,更是理念上的转变。未来的智算平台,需要具备更高的性能、更低的成本、更智能的调度能力,才能满足大模型训练和推理的苛刻需求。
陈健指出,未来智算平台将成为大模型时代的核心基础设施。如同电力和网络一样,智算平台将成为支撑企业大模型应用和发展的基础设施。“算力+算法”将成为大模型竞争的关键。企业仅有强大的算力还不够,还需要与之匹配的算法和模型才能发挥出最大效能。拥有“算力+算法”双重优势的企业将在竞争中脱颖而出。智算平台将推动人工智能应用的普及和发展。随着智算平台的不断发展和完善,人工智能应用的门槛将进一步降低,更多的企业和个人将能够享受到人工智能带来的便利。
大模型时代已经到来,智算平台作为其基石,必将在未来的发展中扮演更加重要的角色。算力企业与行业客户在业务上的紧密融合,凭借各自丰富的经验和前瞻性技术,将在这一波浪潮中乘风破浪,引领我国各行业向“新质生产力”方向健康发展。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。