至顶网软件频道消息:Nvidia首席科学家Bill Dally在首届SysML大会演讲中表示,微处理器设计师需要在专用和通用架构之间取得平衡,才能成功运用深度学习。他否认了在内存计算、模拟计算和神经形态计算等方面的竞争。
Bill Dally表示,带有针对专业指令和数据类型(如Nvidia Volta)优化了的内存层的处理器,是数据中心的最佳方法。在边缘位置,SoC需要加速器块来加速神经网络处理。
Nvidia首席科学家Bill Dally
首届SysML大会由亚马逊、谷歌和Facebook等企业组织,发言人呼吁更广泛地参与到那些迫切需要提高硬件性能的新兴技术中,但软件概念仍在迅速发展。
谷歌大脑团队成员之一、SysML大会的组织者Jeff Dean表示:“深度学习正在改变我们设计计算机的方式......但定制机器学习硬件尚处于起步阶段,因此在处理器设计方面具有很多创造性,这将是一个激动人心的时刻。”
谷歌软件工程师Jeff Dean
Dean补充说:“我们试图预测哪些原语最有意义,因此有时使用一个小的芯片区域来测试想法是有用的。”他补充说,代码和芯片“需要协同发展”。
他预测越来越广泛的软件将采用机器学习技术。
“我们使用启发式技术的任何领域,都是考虑机器学习的好地方——编译器、网络、操作系统、甚至是物理电路设计和测试选择,”他说,还需要一些基础性工作来评估机器学习的有效性,以及需要API来平滑集成。
这位Nvidia首席技术官建议说,8位整数和16位浮点默认用于推理和训练任务。但是对于推理工来说,在某些情况下,使用4位甚至2位数据的情况下神经网络精度仍然很高。一般来说,“权重会使用尽可能少的位数,”他说。
权重本身可以被高度精简。他说,在许多卷积模型中,有2/3到90%的权重都是不需要的。
Dean表示,4位及以下的工作对于激活都是有效的,研究表明对于精度低于16位浮点的训练是有潜力的。他说,其他几个领域的研究可能会影响硬件,比如动态模型路由、批量大小的争议问题以及优化训练模型的技术。
机器学习处理器也可以通过控制与典型CPU和内存访问相关的开销来进行优化。
Nvidia的Dally补充说:“与机器学习操作中的一个皮焦耳相比,现代CPU通道消耗100-500皮焦耳”,并且内存读取可能需要大约5皮焦耳。
让数据靠近逻辑单元是一个问题,特别是考虑到神经网络模型,通常具有比适用于芯片内部内存更多的层。然而,他在上周的国际固态电路会议(ISSCC)上驳斥了超过六本学术论文中提到的内存中处理器(Processor-In-Memory)阵列的趋势。
他说:“我不知道我看到过的论文中提到了某种非易失性RAM或忆阻器,但能耗总是与传统架构大致相同。”
模拟计算是Dally在他称之为“不起作用的东西”之间的另一种选择。
“我看过很多演示文稿,而且我仍然很兴奋,但是我们运行了spice模拟,事实证明它不起作用。它比数字功率更高,因为[模拟]电路泄漏更多。数字CMOS对于低精度非常有效,“他说。
同样地,他驳斥了大量所谓神经形态的设计,其中一些使用尖峰频率进行编码。“模仿大脑而不理解这并不是一个好主意......它就像试图设计一个飞舞着翅膀飞上天的飞机,”他开玩笑说。
Nvidia现在在这个领域处于领先地位,它的GPU被默认用于数据中心训练和一些推理工作。然而,预计今年晚些时候,英特尔的Nervana部门、Graphcore、Cerebras等公司将推出第一批替代产品。
Dean谈到了用于加速推理和训练工作的谷歌TPU。到目前为止,谷歌正在推荐其TPU云服务用户使用它的一系列神经网络模型,谷歌已经在系统上对这些模型进行了测试。
Dally否认面对竞争压力,指出一些新的加速器可能过于专业化,因此受到限制。无论Dally是否正确,或者来自创业公司、网络巨头或学术机构的新架构是否站稳了脚跟,都有待观察。
同样,有些人回击了Dally关于传统扩展已经结束的观点。
“摩尔定律直到2007年左右才停止,现在已经死亡。CPU每年增长10%,而不是像以前那样增加一倍。”
在ISSCC上,一位英特尔工程师声称,英特尔仍在摩尔定律基础上进行扩展,并开发了采用最新10纳米工艺的SRAM。
来源:eetimes.com
编译:科技行者
好文章,需要你的鼓励
F5发布AI Guardrails和AI Red Team两款AI安全产品,以及面向Google Cloud的NGINXaaS服务。AI Guardrails作为代理层部署在用户与AI模型之间,拦截并分析提示词和输出内容,防范注入攻击和越狱技术。AI Red Team自动化对抗性测试,月增1万条攻击技术条目。NGINXaaS现已扩展至Google Cloud,提供负载均衡和安全可观测性功能。
复旦大学研究团队通过大规模实验发现,AI训练中最强的"老师"模型并不一定能教出最好的"学生"模型。他们提出了"排名惊讶比率"新指标,能精准匹配最适合的师生配对。该方法在多项测试中表现优异,预测准确性达0.86,为个性化AI训练和教育提供了科学依据。
思科作为企业网络设备的主导厂商,在CEO Chuck Robbins领导下持续推进变革。公司专注于AI基础设施建设,与BlackRock、微软、英伟达等巨头建立战略合作伙伴关系,投资AI数据中心和生态系统。思科将AI技术深度整合到安全产品中,推出Cisco Secure AI Factory等解决方案。同时,公司积极应对网络安全挑战,修复关键漏洞,推出新认证课程,并通过收购和技术创新强化其在AI时代的基础设施提供商地位。
斯坦福大学人工智能实验室2024年发布的这项研究深入探讨了大型语言模型的推理机制。研究团队通过创新的分析方法,首次系统性地揭示了AI模型在处理复杂推理任务时的内部工作方式,发现其信息处理模式与人类思维有相似之处,但本质上仍依赖统计学习。研究识别了AI推理的典型错误模式和局限性,为改进AI系统提供了科学依据,对AI技术的负责任发展具有重要意义。