至顶网软件频道消息:Nvidia首席科学家Bill Dally在首届SysML大会演讲中表示,微处理器设计师需要在专用和通用架构之间取得平衡,才能成功运用深度学习。他否认了在内存计算、模拟计算和神经形态计算等方面的竞争。
Bill Dally表示,带有针对专业指令和数据类型(如Nvidia Volta)优化了的内存层的处理器,是数据中心的最佳方法。在边缘位置,SoC需要加速器块来加速神经网络处理。
Nvidia首席科学家Bill Dally
首届SysML大会由亚马逊、谷歌和Facebook等企业组织,发言人呼吁更广泛地参与到那些迫切需要提高硬件性能的新兴技术中,但软件概念仍在迅速发展。
谷歌大脑团队成员之一、SysML大会的组织者Jeff Dean表示:“深度学习正在改变我们设计计算机的方式......但定制机器学习硬件尚处于起步阶段,因此在处理器设计方面具有很多创造性,这将是一个激动人心的时刻。”
谷歌软件工程师Jeff Dean
Dean补充说:“我们试图预测哪些原语最有意义,因此有时使用一个小的芯片区域来测试想法是有用的。”他补充说,代码和芯片“需要协同发展”。
他预测越来越广泛的软件将采用机器学习技术。
“我们使用启发式技术的任何领域,都是考虑机器学习的好地方——编译器、网络、操作系统、甚至是物理电路设计和测试选择,”他说,还需要一些基础性工作来评估机器学习的有效性,以及需要API来平滑集成。
这位Nvidia首席技术官建议说,8位整数和16位浮点默认用于推理和训练任务。但是对于推理工来说,在某些情况下,使用4位甚至2位数据的情况下神经网络精度仍然很高。一般来说,“权重会使用尽可能少的位数,”他说。
权重本身可以被高度精简。他说,在许多卷积模型中,有2/3到90%的权重都是不需要的。
Dean表示,4位及以下的工作对于激活都是有效的,研究表明对于精度低于16位浮点的训练是有潜力的。他说,其他几个领域的研究可能会影响硬件,比如动态模型路由、批量大小的争议问题以及优化训练模型的技术。
机器学习处理器也可以通过控制与典型CPU和内存访问相关的开销来进行优化。
Nvidia的Dally补充说:“与机器学习操作中的一个皮焦耳相比,现代CPU通道消耗100-500皮焦耳”,并且内存读取可能需要大约5皮焦耳。
让数据靠近逻辑单元是一个问题,特别是考虑到神经网络模型,通常具有比适用于芯片内部内存更多的层。然而,他在上周的国际固态电路会议(ISSCC)上驳斥了超过六本学术论文中提到的内存中处理器(Processor-In-Memory)阵列的趋势。
他说:“我不知道我看到过的论文中提到了某种非易失性RAM或忆阻器,但能耗总是与传统架构大致相同。”
模拟计算是Dally在他称之为“不起作用的东西”之间的另一种选择。
“我看过很多演示文稿,而且我仍然很兴奋,但是我们运行了spice模拟,事实证明它不起作用。它比数字功率更高,因为[模拟]电路泄漏更多。数字CMOS对于低精度非常有效,“他说。
同样地,他驳斥了大量所谓神经形态的设计,其中一些使用尖峰频率进行编码。“模仿大脑而不理解这并不是一个好主意......它就像试图设计一个飞舞着翅膀飞上天的飞机,”他开玩笑说。
Nvidia现在在这个领域处于领先地位,它的GPU被默认用于数据中心训练和一些推理工作。然而,预计今年晚些时候,英特尔的Nervana部门、Graphcore、Cerebras等公司将推出第一批替代产品。
Dean谈到了用于加速推理和训练工作的谷歌TPU。到目前为止,谷歌正在推荐其TPU云服务用户使用它的一系列神经网络模型,谷歌已经在系统上对这些模型进行了测试。
Dally否认面对竞争压力,指出一些新的加速器可能过于专业化,因此受到限制。无论Dally是否正确,或者来自创业公司、网络巨头或学术机构的新架构是否站稳了脚跟,都有待观察。
同样,有些人回击了Dally关于传统扩展已经结束的观点。
“摩尔定律直到2007年左右才停止,现在已经死亡。CPU每年增长10%,而不是像以前那样增加一倍。”
在ISSCC上,一位英特尔工程师声称,英特尔仍在摩尔定律基础上进行扩展,并开发了采用最新10纳米工艺的SRAM。
来源:eetimes.com
编译:科技行者
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。