IBM的研究人员为了满足算法对处理能力看似无休止的需求推出了一种新的方法,这可能意味着深度学习应用的大变化:执行计算的处理器用的完全是光而不是电。
IBM的研究人员根据光粒子的特性创造了一个光子张量核,该光子张量核能够以前所未有的速度处理数据,可用于超低延迟的人工智能应用。虽然该光子张量核设备只进行了小规模的测试,但有关报告指,该处理器经开发后,可以实现每秒每平方毫米一千万亿次的乘累加(MAC)操作;据IBM的科学家说,这样的速度是靠电信号的 "最先进人工智能处理器 "的两倍多。
IBM多年来一直在研究新型的处理单元方法。部分研究集中在开发内存计算技术上,内存计算指内存和处理以某种形式共存。这样做可以避免在处理器和各个随机存取内存单元之间传输数据,可以节省能源及减少延迟。
IBM的研究人员去年曾宣布成功开发了一种全光学的内存处理方法:他们将内存计算集成在一个光芯片上,利用光执行计算任务。该团队还做了部分实验证明利用该技术可以有效地进行基本的标量乘法。
IBM研究院的工作人员Abu Sebastian在一篇新的博客文章中称目前使用基于光的内存处理器达到了一个新的里程碑。该团队建立了一个光子张量核,该处理核可以执行复杂的矩阵数学运算,特别适合深度学习应用。光子张量核的实现将基于光的内存处理技术推进到了新的阶段。基于光的张量核可用于执行名为卷积的运算,卷积运算对于处理图像等视觉数据非常有用。
IBM研究院的研究人员Abu Sebastian告诉记者,“我们在2019年的实验主要是为了展示该技术的潜力。标量乘法离任何现实生活中的应用都是那么遥远。而现在我们实现了整个卷积处理器,该卷积处理器大可用做深度神经网络的一部分。这样的卷积将是光学处理的杀手级应用。从这个意义上说,这已经是相当大的一步了。”
基于光的设备相比于基于电的设备最显著的优势是速度大大加快。IBM开发的技术利用光学物理学原理可以在单核里并行运行复杂的运算,每次的计算使用光学波长不同。IBM的科学家们再结合内存计算实现了远非电子电路可以比拟的超低延迟。因此,对于一些需要极低延迟的应用而言,光子处理的速度可能将带来极大的变化。
Sebastian提到自动驾驶汽车的例子,这地方检测速度可能关乎拯救生命。他表示,"假如你在高速公路上以每小时100英里的速度行驶,而且需要在一定距离内检测一些东西,在某些情况下,你靠现存的技术做不到。但用了基于光子的系统,那种响应速度比电子方法好了几个数量级。"
IBM开发的基于光子的处理器具有同时执行多项操作的能力,所需的计算密度也就要低得多。据Sebastian说,这可能是另一个关键的差异化因素:这位科学家说,在未来的某个时候,那种靠汽车后备箱一排排传统GPU支持的超级复杂的人工智能系统是肯定不能满足需要的。大多数大型车企现在都在开设自己的人工智能研究中心,Sebastian认为,自动驾驶车辆是基于光的处理器的重要应用。他表示,"自动驾驶领域的确需要低延迟推理,而目前还没有任何技术可以满足这个需求。这是一个独特的机会。"
IBM团队虽然已成功设计及测试了一个强大的核,但他们仍需扩充试验,以确保该项技术可以整合到系统层面上及确保端到端的性能。Sebastian表示,“我们还需要在这一块做更多的工作。”据这位科学家介绍,相关的工作已经展开,而且,随着研究的深入,可能出现更多的应用。计算领域的光换电无疑是一个值得关注的点。
好文章,需要你的鼓励
谷歌发布新的AI学术搜索工具Scholar Labs,旨在回答详细研究问题。该工具使用AI识别查询中的主要话题和关系,目前仅对部分登录用户开放。与传统学术搜索不同,Scholar Labs不依赖引用次数或期刊影响因子等传统指标来筛选研究质量,而是通过分析文档全文、发表位置、作者信息及引用频次来排序。科学界对这种忽略传统质量评估方式的新方法持谨慎态度,认为研究者仍需保持对文献质量的最终判断权。
Meta公司FAIR实验室与UCLA合作开发了名为HoneyBee的超大规模视觉推理数据集,包含250万训练样本。研究揭示了构建高质量AI视觉推理训练数据的系统方法,发现数据质量比数量更重要,最佳数据源比最差数据源性能提升11.4%。关键创新包括"图片说明书"技术和文字-图片混合训练法,分别提升3.3%和7.5%准确率。HoneyBee训练的AI在多项测试中显著超越同规模模型,同时降低73%推理成本。
Meta发布第三代SAM(分割一切模型)系列AI模型,专注于视觉智能而非语言处理。该模型擅长物体检测,能够精确识别图像和视频中的特定对象。SAM 3在海量图像视频数据集上训练,可通过点击或文本描述准确标识目标物体。Meta将其应用于Instagram编辑工具和Facebook市场功能改进。在野生动物保护方面,SAM 3与保护组织合作分析超万台摄像头捕获的动物视频,成功识别百余种物种,为生态研究提供重要技术支持。
上海AI实验室团队提出ViCO训练策略,让多模态大语言模型能够根据图像语义复杂度智能分配计算资源。通过两阶段训练和视觉路由器,该方法在压缩50%视觉词汇的同时保持99.6%性能,推理速度提升近一倍,为AI效率优化提供了新思路。