至顶网软件频道消息:Nvidia首席科学家Bill Dally在首届SysML大会演讲中表示,微处理器设计师需要在专用和通用架构之间取得平衡,才能成功运用深度学习。他否认了在内存计算、模拟计算和神经形态计算等方面的竞争。
Bill Dally表示,带有针对专业指令和数据类型(如Nvidia Volta)优化了的内存层的处理器,是数据中心的最佳方法。在边缘位置,SoC需要加速器块来加速神经网络处理。
Nvidia首席科学家Bill Dally
首届SysML大会由亚马逊、谷歌和Facebook等企业组织,发言人呼吁更广泛地参与到那些迫切需要提高硬件性能的新兴技术中,但软件概念仍在迅速发展。
谷歌大脑团队成员之一、SysML大会的组织者Jeff Dean表示:“深度学习正在改变我们设计计算机的方式......但定制机器学习硬件尚处于起步阶段,因此在处理器设计方面具有很多创造性,这将是一个激动人心的时刻。”
谷歌软件工程师Jeff Dean
Dean补充说:“我们试图预测哪些原语最有意义,因此有时使用一个小的芯片区域来测试想法是有用的。”他补充说,代码和芯片“需要协同发展”。
他预测越来越广泛的软件将采用机器学习技术。
“我们使用启发式技术的任何领域,都是考虑机器学习的好地方——编译器、网络、操作系统、甚至是物理电路设计和测试选择,”他说,还需要一些基础性工作来评估机器学习的有效性,以及需要API来平滑集成。
这位Nvidia首席技术官建议说,8位整数和16位浮点默认用于推理和训练任务。但是对于推理工来说,在某些情况下,使用4位甚至2位数据的情况下神经网络精度仍然很高。一般来说,“权重会使用尽可能少的位数,”他说。
权重本身可以被高度精简。他说,在许多卷积模型中,有2/3到90%的权重都是不需要的。
Dean表示,4位及以下的工作对于激活都是有效的,研究表明对于精度低于16位浮点的训练是有潜力的。他说,其他几个领域的研究可能会影响硬件,比如动态模型路由、批量大小的争议问题以及优化训练模型的技术。
机器学习处理器也可以通过控制与典型CPU和内存访问相关的开销来进行优化。
Nvidia的Dally补充说:“与机器学习操作中的一个皮焦耳相比,现代CPU通道消耗100-500皮焦耳”,并且内存读取可能需要大约5皮焦耳。
让数据靠近逻辑单元是一个问题,特别是考虑到神经网络模型,通常具有比适用于芯片内部内存更多的层。然而,他在上周的国际固态电路会议(ISSCC)上驳斥了超过六本学术论文中提到的内存中处理器(Processor-In-Memory)阵列的趋势。
他说:“我不知道我看到过的论文中提到了某种非易失性RAM或忆阻器,但能耗总是与传统架构大致相同。”
模拟计算是Dally在他称之为“不起作用的东西”之间的另一种选择。
“我看过很多演示文稿,而且我仍然很兴奋,但是我们运行了spice模拟,事实证明它不起作用。它比数字功率更高,因为[模拟]电路泄漏更多。数字CMOS对于低精度非常有效,“他说。
同样地,他驳斥了大量所谓神经形态的设计,其中一些使用尖峰频率进行编码。“模仿大脑而不理解这并不是一个好主意......它就像试图设计一个飞舞着翅膀飞上天的飞机,”他开玩笑说。
Nvidia现在在这个领域处于领先地位,它的GPU被默认用于数据中心训练和一些推理工作。然而,预计今年晚些时候,英特尔的Nervana部门、Graphcore、Cerebras等公司将推出第一批替代产品。
Dean谈到了用于加速推理和训练工作的谷歌TPU。到目前为止,谷歌正在推荐其TPU云服务用户使用它的一系列神经网络模型,谷歌已经在系统上对这些模型进行了测试。
Dally否认面对竞争压力,指出一些新的加速器可能过于专业化,因此受到限制。无论Dally是否正确,或者来自创业公司、网络巨头或学术机构的新架构是否站稳了脚跟,都有待观察。
同样,有些人回击了Dally关于传统扩展已经结束的观点。
“摩尔定律直到2007年左右才停止,现在已经死亡。CPU每年增长10%,而不是像以前那样增加一倍。”
在ISSCC上,一位英特尔工程师声称,英特尔仍在摩尔定律基础上进行扩展,并开发了采用最新10纳米工艺的SRAM。
来源:eetimes.com
编译:科技行者
好文章,需要你的鼓励
2025施耐德电气智算峰会上,全新EcoStruxure(TM) Energy Operation电力综合运营系统正式亮相,定位场站级智慧能源管理中枢,集技术领先性与本土适配性于一体。
这项研究首次系统评估了AI代码智能体在科学研究扩展方面的能力。研究团队设计了包含12个真实研究任务的REXBENCH基准,测试了九个先进AI智能体的表现。结果显示,即使最优秀的智能体成功率也仅为25%,远低于实用化要求,揭示了当前AI在处理复杂科学推理任务时的显著局限性。
Atlassian、Intuit和AWS三大企业巨头正在为智能代理时代做准备,重新思考软件构建方式。当前企业API为人类使用而设计,未来API将成为多模型原生接口。Intuit在QuickBooks中应用自动发票生成,使企业平均提前5天收款;AWS通过AI辅助迁移服务显著提升效率;Atlassian推出内部员工入职代理和客户代理,节省大量时间成本。专家强调需要建立强大的数据架构和信任机制。
俄罗斯莫斯科国立大学研究团队开发出MEMFOF光流估计新方法,在保持顶尖精度的同时将1080p视频分析的GPU内存消耗从8GB降至2GB,实现约4倍内存节省。该方法通过三帧策略、相关性体积优化和高分辨率训练在多个国际基准测试中取得第一名成绩,为高清视频分析技术的普及奠定基础。