人工智能的浪潮汹涌而来,大模型如同一座座拔地而起的数字高峰,预示着一个全新时代的到来。然而企业构建这些高峰的基石,却是一个常常被忽视的名字——智算平台。如同GPT-4的诞生离不开强大的算力支撑,大模型的训练和推理都需要一个高效、稳定的智算平台作为基石。这其中既蕴藏着巨大的机遇,也充满了挑战与困惑。
长期以来,人工智能与超级计算似乎是两个独立的领域。然而,随着大模型训练对算力需求的指数级增长,二者之间的界限逐渐模糊。并行科技董事长陈健一针见血地指出:“AI训练的本质就是超算,超算也并不仅仅是CPU的超级计算机。超算架构、以GPU为核心的算力平台成为大模型训练的必备基础设施。”然而,传统的云服务平台在面对大模型训练时却显得力不从心,其根源在于未能解决算力卡之间性能的问题,导致通信占比过高,无法满足大模型对算力的极致追求。
并行科技董事长陈健
“夕发朝至”,智算推动的创新
赛力斯汽车平台技术体系总监石荡赫表示:“计算机辅助工程(CAE)的广泛应用让车企能在碰撞安全、强度耐久、震动、测试、生态、自动驾驶等方面实现全面创新,而这些需要足够智算的支持。”
这从另一个角度揭示了企业在算力需求上出现了根本性的转变。赛力斯为实现“夕发朝至”的目标——即工程师在下班前提交计算任务,第二天早上就能获得计算结果,不仅需要满足企业的全量业务需求,也要释放原来可能不敢想象的潜在业务需求,还要满足高效的开发要求。赛力斯与并行科技合作打造了基于混合弹性云架构的高性能计算平台,这一平台整合了集团内部算力资源,并结合自研的智能化仿真平台,实现了云端资源的统一调度。
陈健客观地总结道:“工程计算比科学计算复杂度高很多,对算力需求上用户不光考虑能不能算出来,性能好不好,它更多考虑的是快速响应的能力,这将直接影响企业新产品的上市周期。”
从“超算”到“智能超算”,用户关注极致性价比
面对大模型训练带来的算力挑战,传统的超算平台显然无法满足需求。陈健提出了“智能超算”的概念,即面向人工智能的超算。他认为,超算用户最关心的并非是能否完成计算,而是能否以最快的速度、以最低成本完成计算。
在大模型训练的两个主要场景——训练(预训练、微调)和推理中,不同的算力平台展现出不同的优势。H100凭借其强大的计算能力成为大规模训练的首选,而4090则凭借其优异的访存性能在中、大规模推理中占据优势,但只有24G显存却只适合较小的模型推理,中、大规模的推理H20更适合。而昇腾系列则凭借其高性价比在大模型训练领域崭露头角。
并行科技通过多年的超算经验,总结出了一套独特的应用运行特征分析方法:通过高精度、低负载采集数据,分析应用类型,并根据用户应用预测不同算力平台的性能表现,以此优化、适配算力资源,以实现最具性价比的大模型/算力匹配。例如,通过分析预测出H20与H100计算性能差了6倍,但在推理方面H20性能与H100相当,而实际测试结果也证实了这一预测的准确性。
智算平台,未来已来
大模型的出现,将人工智能推向了一个新的高度,也对算力平台提出了更高的要求。从“超算”到“智能超算”,不仅是技术上的升级,更是理念上的转变。未来的智算平台,需要具备更高的性能、更低的成本、更智能的调度能力,才能满足大模型训练和推理的苛刻需求。
陈健指出,未来智算平台将成为大模型时代的核心基础设施。如同电力和网络一样,智算平台将成为支撑企业大模型应用和发展的基础设施。“算力+算法”将成为大模型竞争的关键。企业仅有强大的算力还不够,还需要与之匹配的算法和模型才能发挥出最大效能。拥有“算力+算法”双重优势的企业将在竞争中脱颖而出。智算平台将推动人工智能应用的普及和发展。随着智算平台的不断发展和完善,人工智能应用的门槛将进一步降低,更多的企业和个人将能够享受到人工智能带来的便利。
大模型时代已经到来,智算平台作为其基石,必将在未来的发展中扮演更加重要的角色。算力企业与行业客户在业务上的紧密融合,凭借各自丰富的经验和前瞻性技术,将在这一波浪潮中乘风破浪,引领我国各行业向“新质生产力”方向健康发展。
好文章,需要你的鼓励
这项研究由新加坡国立大学团队开发的DualParal技术,通过创新的双重并行架构解决了AI视频生成的长度限制问题。该方法同时在时间帧和模型层两个维度实现并行处理,配合分块降噪机制、特征缓存和协调噪声初始化策略,使生成分钟级长视频成为可能。实验表明,在生成1,025帧视频时,DualParal比现有技术减少了高达6.54倍的延迟和1.48倍的内存成本,同时保持了高质量的视频输出,为内容创作者提供了生成更长、更复杂视频叙事的新工具。
SoloSpeech是约翰霍普金斯大学研究团队开发的创新语音处理技术,针对"鸡尾酒会效应"问题提出了全新解决方案。该系统通过级联生成式管道整合压缩、提取、重建和校正过程,实现了高质量目标语音提取。与传统判别式模型相比,SoloSpeech采用无需说话者嵌入的设计,直接利用提示音频的潜在空间信息与混合音频对齐,有效避免特征不匹配问题。在Libri2Mix及多个真实世界数据集上的评测显示,SoloSpeech在清晰度、质量和泛化能力上均达到了领先水平,为语音分离技术开辟了新方向。
这项由北京大学深圳研究生院、伟湾大学、腾讯ARC实验室和兔小贝智能联合研究的Sci-Fi框架,通过创新的对称约束机制,解决了视频帧间插值中的关键问题。研究团队设计了轻量级EF-Net模块,增强结束帧约束力,使其与起始帧形成平衡影响,从而生成更自然流畅的中间过渡帧。实验证明,该方法在各种场景下都优于现有技术,特别适用于电影制作、动画创作和视频编辑领域,显著降低了人力成本。
这项来自西北大学和谷歌的研究突破了传统马尔可夫强化学习的局限,通过贝叶斯自适应RL框架解释了大语言模型中涌现的反思性推理行为。研究团队提出的BARL算法通过维护多个解题策略的后验分布,指导模型何时何地进行反思性探索,在数学推理任务上展现出显著优势,比基线方法减少高达50%的标记使用量,同时提高了准确率。这一研究不仅解释了"为什么反思有用",还提供了实用的指导原则,为AI系统的自适应推理能力开辟了新方向。