尽管投入大量资源,但仅有不足半数AI模型能够投入生产。为了摸清造成这种窘境的原因,Run:AI委托开展了首轮AI基础设施现状调查。本次调查面向来自十个国家的211名数据科学家、AI/机器学习/IT从业者及系统架构师,他们主要来自员工超过5000人的规模企业,但也包括部分来自初创企业和超大型跨国集团。
统计数据也证实了这一基本判断:77%的受访者表示他们的大部分AI模型从未投入过正式使用;甚至有五分之一的受访者给出了更低的答案,称全部模型中只有10%能够介入生产环境。
报告中的其他发现则给出了具体解释。例如,只有17%的AI厂商能够对昂贵的AI资源进行高效利用;22%的AI解决方案开发者表示,他们的基础设施大多处于闲置状态,这是因为超过三分之一的受访者需要手动访问GPU资源,而且硬件加速器的静态分配机制也严重限制了他们的工作效率。
AI领域已经吸纳了巨量成本:38%的受访者表示所在公司单单在AI基础设施,包括硬件、软件与云开销方面就开出了超过100万美元的年度预算;更有15%的受访者表示所在公司的年度AI基础设施投入超过1000万美元。还有74%的受访者称公司计划在短期之内增加GPU容量或AI基础设施支出。
调查发现,AI工作者们面临的最大挑战集中在数据层面。61%的受访者表示数据收集、数据清洗与治理等环节存在问题。42%的受访者强调所在公司的AI基础设施与算力水平达不到要求。除开数据与基础设施这两大核心要素,紧随其后的挑战为模型开发及训练时间过长、模型引用量过大,占受访者中的24%。
调查还强调了云计算在AI领域的作用,53%的受访者表示他们的AI应用程序及基础设施位于云端,34%受访者表示计划在未来几年向云端迁移。容器已经成为运行AI工作负载的标准基础设施选项,80%的受访者表示他们已经在某些AI工作负载中使用容器技术,49%的受访者表示他们的大部分乃至全部AI负载都运行在容器之内。在编排方面,Kubernetes一马当先、获得42%的支持率,另有16%的受访者表示计划使用这套流行的容器编排解决方案。紧随其后的是Red Hat Openshift,有13%的用户正在使用、6%的受访者有意试用。
Run:AI公司联合创始人兼CEO Omri Geller表示,“除了基础设施层面的数百万美元投入之外,对AI抱有兴趣的企业还需要再准备几百万美元招纳高水平的AI员工。但很遗憾,大部分AI模型从未被投入实际生产,意味着这些投入白白打了水漂。我们的调查显示,大量基础设施处于闲置状态、引发严重的资源浪费;数据科学家被迫手动访问GPU资源;而且云迁移之旅也仍在推进当中。总之,谁能率先把自己的模型投入生产并获得实效,谁就能在这场AI竞赛当中占据领先。”
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。