AWS即将推出云计算实例系列预览,使企业可以在AWS云上训练人工智能(AI)模型,其性价比与显卡比高40%。
预计该实例系列能在2021年上半年应市。AWS日前在旗下的re:Invent线上活动上宣布了该消息,AWS同时还宣布推出用于其他使用案例的计算产品,例如运行数据库和渲染视频内容等使用案例。
AWS计划推出的的AI实例,是基于英特尔公司的Gaudi 芯片,这些芯片针对训练神经网络进行了专门优化。英特尔曾斥资200亿美元收购半导体初创公司Habana Labs Ltd纳入其产品系列。AWS的实例系列最多可提供含八个Gaudi的实例,据Habana 高管Eitan Medina发布的博文称,这可以提供足够的算力以每秒12,000张照片的速度训练人工智能模型,相当于使用行业标准Resnet-50模型时达到的训练速度。
云巨头AWS将在适当的时机推出Gaudi实例。AI模型现在越来越复杂,一部分原因是由于企业机器学习举措趋于成熟,也有部分原因是因为诸如OpenAI等公司在做的研究,使大型神经网络架构成为可行。随着神经网络复杂性的增长,训练神经网络所需的算力需求也在增加,因而也推动了更有效地训练神经网络架构的需求。
这消息亦是英特尔的大胜利。芯片制造商英特尔最近几个季度将旗下中央处理器的核心聚焦领域扩展到其他领域,包括AI芯片市场。云领导者AWS采用英特尔的Gaudi芯片,预计这些芯片还具有高性价比的竞争力,这些事实都在向其他潜在客户发出强大的信号。
云巨头AWS采用Gaudi推动更广泛的策略,进而扩展旗下的云可提供的芯片选项数量。AWS还在re:Invent上宣布了开发Trainium自家AI训练处理器的消息。
AWS表示,Trainium将提供“云端训练机器学习模型的最佳性价比”。亚马逊子公司AWS并没有给出太多Trainium芯片的技术规细节。但AWS透露,Trainium适合于训练各种模型,包括用于图像分类、翻译、语音识别、自然语言处理和产品推荐等神经网络。
Trainium芯片预计将于2021年下半年提供给客户使用。
好文章,需要你的鼓励
希腊塞萨洛尼基大学研究团队开发出MIR-L算法,通过"彩票假说"发现大型图像修复网络中的关键子网络。该算法采用迭代剪枝策略,将网络参数减少90%的同时保持甚至提升修复性能。MIR-L能同时处理去雨、去雾、降噪等多种图片问题,为资源受限设备的实时图像处理提供了高效解决方案,具有重要的实用价值和环保意义。
这项由OpenRouter公司团队和Andreessen Horowitz(a16z)投资机构联合开展的研究,于2025年12月发表。
卡内基梅隆大学团队提出DistCA技术,通过分离AI模型中的注意力计算解决长文本训练负载不平衡问题。该技术将计算密集的注意力任务独立调度到专门服务器,配合乒乓执行机制隐藏通信开销,在512个GPU的大规模实验中实现35%的训练加速,为高效长文本AI模型训练提供了新方案。