最近在科技界,人工智能、机器学习可谓炙手可热。回想这一年,机器学习大佬们纷纷从学术界“跳槽”工业界,祖师爷Geoffrey Hinton被谷歌招入麾下,泰斗Yann Lecun加盟Facebook,前“谷歌大脑之父” Andrew Ng成为百度首席科学家。作为人工智能最重要的分支,近几年,机器学习取得的突破进展,让世界不得不为之瞩目。
这个六月,一场机器学习领域的饕餮盛宴正在上演。国际机器学习大会(ICML)和机器学习暑期国际研讨会(MLSS)这两个机器学习顶级会议首次来到北京。人工智能为何如此火爆?学术界与工业界有哪些新进展?人工智能下一突破会在何处?笔者抓住这个千载难逢的机会,来到现场,不仅能近距离膜拜大师,更期待找到问题的答案。
两大盛会首来中国,原因何在
今年,ICML和MLSS齐聚北京,可谓史无前例。究竟是什么吸引两大机器学习顶级会议从欧美移驾中国、各位人工智能大师千里迢迢赴京?笔者认为,中国目前在人工智能领域可谓异军突起,无论学术界还是工业界都有亮眼表现。
从国家层面,政府高度重视发展人工智能技术,人才方面,越来越多就读于世界顶级名校的中国学子学成归国,工业方面,中国真正做到了技术的工业落地,尤其在互联网产品上变现能力极强。
人工智能研究新成果
去年ICML大会上, Andrew Ng带领学生Adam Coates利用2万美金的GPU集群做到了谷歌价值约100万美金服务器集群识别猫脸同样的效果。今年,谷歌实验室科学家Quoc Le带来了提取语句和文本特征的新方法。通过加入一层Paragraph Vector来表示语境,巧妙的解决了传统“bag-of-words”(词袋)模型无序和语意缺失的问题。
自然语音处理领域鼻祖,加拿大蒙特利尔大学的Yoshua Bengio教授将传统Denoising Auto-encoder(DAE)算法训练循环(training epoch)中数据的损失边缘化(marginalized),实现了用少量的训练循环达到或超过DAE模型的效果。
机器学习泰斗Geoffrey Hinton的学生,加拿大多伦多大学教授Ruslan Salakhutdinov则介绍了关于自然语言的多模态神经语言模型(multimodal neural language)。在图文(image-text)模型中,通过一个卷积网络,可以同时学到关键词和图像特征。
每届ICML,最受关注的便是Best Paper花落谁家。要知道,ICML的评委们对文章的筛选一向以“苛刻”著称。今年,最终归属于北京大学2009级博士生唐建的《Understanding the Limiting Factors of Topic Modeling via Posterior Contraction Analysis》,这是继去年百度深度学习实验室负责人余凯获得Best Paper银奖后再次争得国际顶级荣誉。
百度引领人工智能创新
据笔者不完全统计,本次大会收录了17篇来自中国的regular paper,其中来自工业界共计5篇,百度4篇,阿里1篇。百度大数据实验室负责人张潼从理论上解决了机器学习不同方向上的优化问题。例如,他提出AccProx-SDCA框架,优化了机器学习三大关键问题SVM、Lasso和Ridge Regression的运行时间。
从MLSS到ICML, Andrew Ng、张潼、余凯等豪华阵容先后亮相百度展台;产品上,从搜索广告CTR预估到各种预测的实现,再到移动产品的落地,显示出了领跑人工智能、机器学习领域的雄心和决心。
人工智能的下一突破
那么,人工智能新的突破在哪里?在深度学习晚宴的Panel discussion环节中,从Andrew Ng的回答中或许能找到答案。Andrew Ng谈到,近些年深度学习取得的显著进展,得益于基于大量标记数据(tagged data)的有监督学习(supervised learning)的研究。随着物理世界的数字化,大量标记数据产生,并且被提供给深度学习算法。如谷歌、百度这样的互联网公司已经从中获得价值。所以,有监督学习将在短期内仍是人工智能的研究重点,并在机器视觉、语音识别、广告和推荐系统等方面产生重要作用。
Andrew Ng认为,基于深度学习技术,App和硬件都将变得更加智能。试想这样一个应用场景,在开车的时候,只要说出“发件人我”,“回复给谁”,再说出邮件内容,手机会自动将语音准确转化为文本邮件,最终成功将邮件发送给接收人。在Andrew看来,未来几年手机将会是连接一切的桥梁,人类通过手机将开启智能生活。
另一方面,神经学家相信,动物和孩子往往是通过无标记数据(untagged data)来学习的。目前已经有科学家尝试在无标记数据上应用深度学习技术,但还没有找到合适的算法。未来,在这方面,可能会出现很多突破。据说,Andrew Ng带领的百度人工智能实验室将在这方面有所建树。
好文章,需要你的鼓励
帕洛阿尔托创业公司Catio在VentureBeat Transform 2025大会上获得"最酷技术"奖。该公司成立于2023年,已筹集700万美元资金。Catio推出的AI技术架构副驾驶将架构重新定义为可编码、可内省和智能演进的活体系统。通过结合实时架构地图和多智能体AI组织,帮助工程团队从被动决策转向持续主动的架构优化,为CTO和架构师提供数据驱动的架构决策支持。
这项由中国移动和Zero Gravity实验室合作的研究成功突破了大模型训练的网络带宽限制,首次实现在1Gbps网络下训练1070亿参数模型,速度比传统方法快357倍。通过流水线并行、延迟重叠机制和自适应压缩算法的创新组合,为分布式AI训练开辟了新可能。
谷歌在ISTE教育技术大会上发布超过30款AI教育工具,包括专为教育打造的Gemini应用、协作视频制作工具Google Vids扩展访问权限等。教师可利用AI技术进行头脑风暴、生成教案、个性化学习内容,还能创建定制版Gemini"助手"为学生提供额外支持。新工具还包括AI阅读伙伴、学习进度追踪、Chrome设备管理等功能,旨在通过"负责任的AI"推动个性化学习体验。
这项研究介绍了MADrive系统,一种革命性的自动驾驶场景模拟技术。该系统通过一个包含7万辆真实车辆的数据库,能够将普通驾驶录像转换成各种危险场景的高逼真度模拟,为自动驾驶系统提供安全的训练环境。实验表明,相比传统方法,MADrive在多个关键性能指标上都有显著提升,为解决自动驾驶训练数据稀缺问题提供了新思路。