至顶网软件频道消息: 深度学习是去年Google NEXT云大会的核心主题,Google提出了成为现代人工智能中心的宏伟蓝图。昨天,Google正式发布了这一蓝图的下个篇章——Cloud AutoML Vision,让任何人都可以通过上传一组示例并单击几个按钮来构建自己的深度学习计算机视觉模型。在一个点击式深度学习的世界中,AI的未来可能会是什么样的?
仅仅在过去的两年中,Google每年的深度学习研究都突出了人工智能正在以不可思议的各种方式渗透到Google的各个角落,同时DeepMind也持续在深度学习方法基本能力方面实现突破。总的来看,像Google这样的公司正在转向利用深度学习的方法来自动化、加速和彻底重新思考一切事情,从服务用户的方式到如何运行基础设施。
简而言之,深度学习方法正在构建或者改善数字世界不断增加的算法。神经网络还远未完善,要看到智能AI系统在各种日常任务中超越人类,还需要一段时日。如今的人工智能系统是专门为特定的应用而建立的,还有大量的人才和洞察力用来打造这些系统。
事实上,也许今天阻碍AI彻底变革商业世界的最大限制因素,就是极度稀缺的高度熟练和经验丰富的深度学习程序员。目前,建立一个对未知数据有高度准确的、强大的、具有足够性能扩展到生产工作流中的生产级神经应用,还远未达到点击式的体验。创建最先进的神经网络,或者推进这个领域本身的发展状态,都依赖于非常稀缺的研究人员,并且这中人才在硅谷之外很难找到。
十年前,大规模容错虚拟化集群基础设施也面临同样情况,现在它已经成为云计算的代名词。像亚马逊、Google和微软这样的公司把云带到大众面前,构建了专门的硬件,并且打包了大量专业技术,既推动了底层技术的发展,又通过与客户合作实现超越自身的能力。在这样做的过程中,主要的技术公司把自己所需要的基础设施和专业知识,并将其出租给其他方,让他们从他们开创的技术中受益。
今天,几乎每个大公司对于如何利用深度学习是感兴趣的,但缺乏可用的深度学习人才和建立一个深度学习团队进行大规模深度学习项目的启动成本。即使是那些已经开始深度学习的公司,也很少能够达到像Google系统那样的精确度或速度,而且Google也吸引了很多世界顶尖的AI人才。
Google在“AI for all”领域展开的努力,首先是围绕着针对常见认知任务设计的预定义模型上构建的API,例如识别照片、OCR、依赖树解析、翻译等大约10000个预定义的对象。这些工作开展得很好,许多公司都有很高的特定领域的定制识别需求,可以完美利用Google神经识别基础设施,特别是利用转移学习将培新新模型所需的示例数量减到最少。
Cloud AutoML Vision代表着Google在这个点击式神经网络崭新世界中迈出的第一步。企业不再需要自己内部的人工智能人员来利用深度学习:只需通过Web界面上传几十个示例图像,点击一个按钮即可获得一个训练有素的神经网络,可以立即部署其具有生产准确性和生产规模,在神经准确度水平上每秒处理数百万个请求。Google甚至提供自己的注释人员来标记上传的图像,并与客户合作优化他们的训练数据。
将图像目录拖放到一个文件夹中,点击一下按钮,获得一个“正常工作”的神经网络,就是“AI for everyone”的核心。正如全球各地的企业利用云来运行服务器而不了解其巨大复杂性一样,Cloud AutoML Vision提供了一个世界的预览,在这个世界中,每个人都能够在不了解底层的情况下构建神经网络。
事实上,Google将其称肩负着“让人工智能民主化的使命......降低准入门槛,并使AI可用于最大可能的开发者、研究人员和企业社区”。企业将技术技能构建现金神经网络所需的经验外包给Google,这为企业充分利用深度学习这场变革打开了一扇大门。
然而,Google在声明中强调,Cloud AutoML利用了转移学习,意味着企业不仅要将编程技术外包给Google,而且还要利用Google庞大的数据档案和公司和该企业构建自己生产模式为Google提供支撑的资源。建立一个新的计算机视觉分类器来识别特定类型的云?只需要转移学习所需的几十个例子就可以实现,因为基础模型的构建需要大量数据和调优,这已经由Google根据自己的需要完成了。
当然,说到运行最先进的模型时,巨大的计算需求(通常将最大规模的专用定制芯片结合在一起)阻碍了大多数公司将注意力集中在模型的最大精度和规模上。Google在2016年关于其神经转换架构的一篇论文指出,Google用了6天时间用96个NVIDIA K80 GPU来训练模型,又用了3天细化处理。解码是在44个物理核心的Haswell机器(88个虚拟内核)上进行的,使用这些CPU的处理速度可达到每秒4.5个语句,使用K80 GPU的处理速度可达到每秒1.9个语句,使用TPU处理器的处理速度可最高达到每秒15.6个语句。换句话说,如果没有定制的TPU芯片,Google模型在44物理内核的机器上每秒只能转换大约100个字。如无专门的TPU来协助,翻译1000到2000字的新闻文章可以轻松消耗掉数百个处理器的资源。去年微软的一篇论文概述了神经模型在生产中的成本是有多么贵。
Google再一次将自己定位为终极的人工智能计算设备,让AutoML生成的模型通过其Cloud Vision或Cloud ML基础设施能力立即运行,并充分利用其庞大的硬件投资。模型可立即扩展到生产流量水平,利用相同的硬件为Google自己的云提供动力。
所有这些,Google首次发布的Cloud AutoML产品代表着我们在思考深度学习的方式上有了深刻的转变。迄今为止,即使有云厂商提供了神经模型托管服务,但企业仍然必须建立自己的人工智能实验室,并聘请深度学习研究人员来建立其模型。高端人工智能研究人员的缺乏,以及训练数据的缺乏,意味着很少有公司具有像Google这样开发系统的质量和速度。今天,全球任何企业都可以将其所有的深度学习需求外包给Google,上传几十个示例,并让Google处理注释、模型构建和调优。不仅如此,由此产生的转移学习训练模型还利用了像Google这样的大公司的庞大的基础训练数据。再点击一下鼠标,最终模型可以立即部署到生产中,处理“Google规模”的流量。简而言之,Google全新的Cloud AutoML平台最终呈现了“点击一下,为所有人实现AI”的梦想。
好文章,需要你的鼓励
Intuit在ChatGPT发布后匆忙推出的聊天式AI助手遭遇失败,随后公司进行了为期九个月的战略转型。通过观察客户实际工作流程,发现手动转录发票等重复性劳动,决定用AI智能体自动化这些任务而非强加新的聊天行为。公司建立了三大支柱框架:培养构建者文化、高速迭代替代官僚主义、构建GenOS平台引擎。最终推出的QuickBooks支付智能体让小企业平均提前5天收到款项,每月节省12小时工作时间。
希伯来大学研究团队开发出MV-RAG系统,首次解决了AI在生成稀有物品3D模型时的"胡编乱造"问题。该系统像拥有图像记忆库的艺术家,能先搜索相关真实照片再生成准确3D视图。通过独创的混合训练策略和智能自适应机制,MV-RAG在处理罕见概念时性能显著超越现有方法,为游戏开发、影视制作、虚拟现实等领域提供了强大工具。
马斯克旗下xAI公司发布专为开发者设计的新AI模型grok-code-fast-1,主打快速且经济的推理能力。该模型属于Grok 4系列,具备自主处理任务的能力。xAI声称其在SWE-bench评测中解决了70.8%的实际软件问题,表现优于GPT-5和Claude 4。不过模型存在较高的不诚实率问题。用户可通过GitHub Copilot等平台免费试用7天,需要API密钥访问。
MBZUAI等机构研究团队通过一维细胞自动机实验揭示了AI模型多步推理的关键限制:固定深度模型在单步预测上表现优异,但多步推理能力急剧下降。研究发现增加模型深度比宽度更有效,自适应计算时间、强化学习和思维链训练能突破这些限制。这为开发更强推理能力的AI系统提供了重要指导,强调了真正推理与简单记忆的本质区别。