至顶网软件频道消息:Nvidia首席科学家Bill Dally在首届SysML大会演讲中表示,微处理器设计师需要在专用和通用架构之间取得平衡,才能成功运用深度学习。他否认了在内存计算、模拟计算和神经形态计算等方面的竞争。
Bill Dally表示,带有针对专业指令和数据类型(如Nvidia Volta)优化了的内存层的处理器,是数据中心的最佳方法。在边缘位置,SoC需要加速器块来加速神经网络处理。
Nvidia首席科学家Bill Dally
首届SysML大会由亚马逊、谷歌和Facebook等企业组织,发言人呼吁更广泛地参与到那些迫切需要提高硬件性能的新兴技术中,但软件概念仍在迅速发展。
谷歌大脑团队成员之一、SysML大会的组织者Jeff Dean表示:“深度学习正在改变我们设计计算机的方式......但定制机器学习硬件尚处于起步阶段,因此在处理器设计方面具有很多创造性,这将是一个激动人心的时刻。”
谷歌软件工程师Jeff Dean
Dean补充说:“我们试图预测哪些原语最有意义,因此有时使用一个小的芯片区域来测试想法是有用的。”他补充说,代码和芯片“需要协同发展”。
他预测越来越广泛的软件将采用机器学习技术。
“我们使用启发式技术的任何领域,都是考虑机器学习的好地方——编译器、网络、操作系统、甚至是物理电路设计和测试选择,”他说,还需要一些基础性工作来评估机器学习的有效性,以及需要API来平滑集成。
这位Nvidia首席技术官建议说,8位整数和16位浮点默认用于推理和训练任务。但是对于推理工来说,在某些情况下,使用4位甚至2位数据的情况下神经网络精度仍然很高。一般来说,“权重会使用尽可能少的位数,”他说。
权重本身可以被高度精简。他说,在许多卷积模型中,有2/3到90%的权重都是不需要的。
Dean表示,4位及以下的工作对于激活都是有效的,研究表明对于精度低于16位浮点的训练是有潜力的。他说,其他几个领域的研究可能会影响硬件,比如动态模型路由、批量大小的争议问题以及优化训练模型的技术。
机器学习处理器也可以通过控制与典型CPU和内存访问相关的开销来进行优化。
Nvidia的Dally补充说:“与机器学习操作中的一个皮焦耳相比,现代CPU通道消耗100-500皮焦耳”,并且内存读取可能需要大约5皮焦耳。
让数据靠近逻辑单元是一个问题,特别是考虑到神经网络模型,通常具有比适用于芯片内部内存更多的层。然而,他在上周的国际固态电路会议(ISSCC)上驳斥了超过六本学术论文中提到的内存中处理器(Processor-In-Memory)阵列的趋势。
他说:“我不知道我看到过的论文中提到了某种非易失性RAM或忆阻器,但能耗总是与传统架构大致相同。”
模拟计算是Dally在他称之为“不起作用的东西”之间的另一种选择。
“我看过很多演示文稿,而且我仍然很兴奋,但是我们运行了spice模拟,事实证明它不起作用。它比数字功率更高,因为[模拟]电路泄漏更多。数字CMOS对于低精度非常有效,“他说。
同样地,他驳斥了大量所谓神经形态的设计,其中一些使用尖峰频率进行编码。“模仿大脑而不理解这并不是一个好主意......它就像试图设计一个飞舞着翅膀飞上天的飞机,”他开玩笑说。
Nvidia现在在这个领域处于领先地位,它的GPU被默认用于数据中心训练和一些推理工作。然而,预计今年晚些时候,英特尔的Nervana部门、Graphcore、Cerebras等公司将推出第一批替代产品。
Dean谈到了用于加速推理和训练工作的谷歌TPU。到目前为止,谷歌正在推荐其TPU云服务用户使用它的一系列神经网络模型,谷歌已经在系统上对这些模型进行了测试。
Dally否认面对竞争压力,指出一些新的加速器可能过于专业化,因此受到限制。无论Dally是否正确,或者来自创业公司、网络巨头或学术机构的新架构是否站稳了脚跟,都有待观察。
同样,有些人回击了Dally关于传统扩展已经结束的观点。
“摩尔定律直到2007年左右才停止,现在已经死亡。CPU每年增长10%,而不是像以前那样增加一倍。”
在ISSCC上,一位英特尔工程师声称,英特尔仍在摩尔定律基础上进行扩展,并开发了采用最新10纳米工艺的SRAM。
来源:eetimes.com
编译:科技行者
好文章,需要你的鼓励
西部数据闪存业务分拆后,SanDisk宣布将停用广受欢迎的WD Black和Blue品牌,推出全新的SanDisk Optimus系列NVMe产品线。WD Blue驱动器将更名为SanDisk Optimus,而高端WD Black驱动器将分别更名为Optimus GX和GX Pro。尽管品牌变更,底层硬件和供应链保持不变。然而受全球内存短缺影响,预计2026年第一季度客户端SSD价格可能上涨超过40%。
上海AI实验室开发RePro训练方法,通过将AI推理过程类比为优化问题,教会AI避免过度思考。该方法通过评估推理步骤的进步幅度和稳定性,显著提升了模型在数学、科学和编程任务上的表现,准确率提升5-6个百分点,同时大幅减少无效推理,为高效AI系统发展提供新思路。
福特汽车在2026年消费电子展上宣布将在车辆中引入AI助手技术。该AI助手最初将在福特和林肯智能手机应用中推出,从2027年开始成为新车型的原生功能。福特希望通过AI技术实现车辆个性化体验,提供基于位置、行为和车辆能力的智能服务。同时,福特将采用软件定义车辆架构,推出自研的高性能计算中心,提升信息娱乐、驾驶辅助等功能。
MIT团队开发的VLASH技术首次解决了机器人动作断续、反应迟缓的根本问题。通过"未来状态感知"让机器人边执行边思考,实现了最高2.03倍的速度提升和17.4倍的反应延迟改善,成功展示了机器人打乒乓球等高难度任务,为机器人在动态环境中的应用开辟了新可能性。