ZD至顶网软件频道消息: 本文作者曾经多次预测了技术发展的趋势,最近的一次预测是“2011年软件发展的趋势与预测”。10项预言中,准确地命中了6项,比如JavaScript VM、NoSQL、大数据分析、私有云、Scala语言等等。今年,他对深度学习的发展趋势做了一个预测,主要是研究领域的趋势预测,而不是工业界的应用。
以下是作者对2017年度的预测内容。
硬件将加速倍增摩尔定律
作者根据其观察到Nvidia和Intel的发展动态,认为这是显而易见的趋势。由于Nvidia具有完整的深度学习生态系统,它们在整个2017年都将主导占据主导地位。在另一个深度学习生态系统成熟之前,没有人会抛弃Nvidia而追求其它的平台。Intel的Xeon Phi方案中途夭折,预计要到2017年年中才能在性能上追赶上Nvidia,那时基于Nervana的芯片才推向市场。Intel的FPGA方案可能因为成本原因而被云提供商所采纳。降低功耗是头等大事。预计到2017年年中,Intel的Nervana芯片每秒可完成30万亿次浮点运算。作者个人猜测,Nvidia目前已经能够实现每秒20万亿次浮点运算,他打赌Intel在2018年之前不会有太多动作。Intel手中的唯一可能的一张王牌是3D XPoint技术。这将有助于提高整个硬件堆栈,但不一定是提升核心能力。
卷积神经网络(CNN)将会统治而RNNs和LSTM将被淘汰
作者认为CNN模型将成为深度学习系统的主流模型。RNN和LSTM模型及其递归设置和嵌套的记忆节点将越来越少地使用,因为它们无法与CNN所抗衡。就如同GOTO在代码中消失一样,作者希望RNN和LSTM模型也被淘汰。
简单的调参工作将被元学习取代
当作者刚开始接触深度学习时,他认为优化算法,特别是二阶的算法能够有巨大的提升。如今,已经有替我们优化模型的深度学习模型了。我们不在需要费尽心思改进SGD算法了,作者认为重要的一个原因是元学习(meta-learning)能够根据领域自适应地优化学习过程。
可微分记忆网络将更常见
记忆模块将从核心节点中抽取出来,只是作为计算机制的一个独立组件,作者觉得这是一个很自然的结果或者说架构。他认为LSTM的遗忘门、输入门和输出门没有必要,它们可以被辅助的可微分记忆模块所取代。这呼应了作者对CNN模型的预测。
强化学习只会变得更具创造性
对于现实的观察永远是不完美的。我们身边存在着大量SGD无法解决的问题。因此,任何实践性的深度学习系统都必须包含某些形式的强化学习。除此之外,强化学习将会出现在各种深度学习的训练过程中。作者认为强化学习极大地促进了元学习。
对抗与合作学习将成为王牌
在过去,我们的深度学习系统都只有单一的目标函数。今后,作者希望看到两个或两个以上的网络合作或竞争来实现一个最佳的解决方案。参见“博弈论揭示了深度学习的未来”。
转移学习引领产业化
Andrew Ng认为这非常重要,作者也表示赞同!
更多的应用程序将使用深度学习组件
在2016年,我们已经看到深度学习在更大的搜索算法中用作一个功能评价组件。alphago采用深层学习来评估策略。谷歌的Gmail自动回复系统将深度学习与集束搜索(beam search)结合。作者希望看到更多的这类混合算法,而不是新的end-to-end的被训练的DL系统。
更多的采用设计模式
深度学习只是众多需要抽象结构的复杂领域之一。尽管它用到了很多高深的数学知识,仍有很多未经证明和模糊的概念可以借鉴在其它复杂领域已被证明是有效的方法,比如在软件开发领域有效。作者认为人们最终会从深度学习与模式设计中得到启发。
工程将超过理论
作者认为研究人员的背景和他们所使用的数学工具会给他们的研究方法带来偏见。深度学习系统和无监督学习系统等等这些新的东西可能我们从来没有遇到过。因此,他觉得没有证据表明我们的传统分析工具将对解开深度学习的谜团提供任何帮助。几十年来,物理学中大量的动态系统一直困扰着作者,他将此类比于深度学习系统。
然而,尽管我们缺乏了解其本质,但是将不会阻止工程上的应用。作者觉得深度学习几乎就像是生物技术或基因工程。我们已经创建了模拟学习机,我们不知道他们是如何工作的,但是这并没有阻止任何人进行创新。
原文: 10 Deep Learning Trends and Predictions for 2017
作者: Carlos E. Perez
译者: KK4SBB
好文章,需要你的鼓励
科技专家Sungjoo Yoon在TED演讲中提出"偏好原理",认为了解用户喜好信息越多,就能创造更强大的技术。他将市场变化比作"地壳运动",从1969年命令行界面到80年代GUI,再到90年代网络界面,技术发展都遵循这一规律。自然语言处理能建立信任,而AI智能体时代的到来意味着非人类参与者将在人类主导的世界中发挥作用。
Meta联合滑铁卢大学开发的MoCha系统实现重大突破,仅需语音和文字描述就能生成电影级会说话的虚拟角色视频。该技术突破传统局限,无需参考图片等辅助条件,还能实现多角色对话场景,在唇音同步、表情自然度等方面显著超越现有方法,为内容创作、教育、娱乐等领域带来革命性变化。
微软推出了Copilot Vision AI新功能,该技术能够扫描和分析用户屏幕上的所有内容。这项AI视觉技术可以实时理解用户正在查看的信息,包括文本、图像和应用程序界面,为用户提供更加智能化的交互体验和个性化建议。此功能的推出标志着AI助手向更深层次的用户体验集成迈进。
阿联酋和中国研究团队联合开发prima.cpp系统,成功实现70B大模型在普通家庭设备集群上运行。该系统通过创新的管道环形并行技术和Halda调度算法,将响应速度提升15倍至600毫秒,内存压力控制在6%以下,为AI技术民主化提供了新路径。