最近在科技界,人工智能、机器学习可谓炙手可热。回想这一年,机器学习大佬们纷纷从学术界“跳槽”工业界,祖师爷Geoffrey Hinton被谷歌招入麾下,泰斗Yann Lecun加盟Facebook,前“谷歌大脑之父” Andrew Ng成为百度首席科学家。作为人工智能最重要的分支,近几年,机器学习取得的突破进展,让世界不得不为之瞩目。
这个六月,一场机器学习领域的饕餮盛宴正在上演。国际机器学习大会(ICML)和机器学习暑期国际研讨会(MLSS)这两个机器学习顶级会议首次来到北京。人工智能为何如此火爆?学术界与工业界有哪些新进展?人工智能下一突破会在何处?笔者抓住这个千载难逢的机会,来到现场,不仅能近距离膜拜大师,更期待找到问题的答案。
两大盛会首来中国,原因何在
今年,ICML和MLSS齐聚北京,可谓史无前例。究竟是什么吸引两大机器学习顶级会议从欧美移驾中国、各位人工智能大师千里迢迢赴京?笔者认为,中国目前在人工智能领域可谓异军突起,无论学术界还是工业界都有亮眼表现。

从国家层面,政府高度重视发展人工智能技术,人才方面,越来越多就读于世界顶级名校的中国学子学成归国,工业方面,中国真正做到了技术的工业落地,尤其在互联网产品上变现能力极强。
人工智能研究新成果
去年ICML大会上, Andrew Ng带领学生Adam Coates利用2万美金的GPU集群做到了谷歌价值约100万美金服务器集群识别猫脸同样的效果。今年,谷歌实验室科学家Quoc Le带来了提取语句和文本特征的新方法。通过加入一层Paragraph Vector来表示语境,巧妙的解决了传统“bag-of-words”(词袋)模型无序和语意缺失的问题。
自然语音处理领域鼻祖,加拿大蒙特利尔大学的Yoshua Bengio教授将传统Denoising Auto-encoder(DAE)算法训练循环(training epoch)中数据的损失边缘化(marginalized),实现了用少量的训练循环达到或超过DAE模型的效果。
机器学习泰斗Geoffrey Hinton的学生,加拿大多伦多大学教授Ruslan Salakhutdinov则介绍了关于自然语言的多模态神经语言模型(multimodal neural language)。在图文(image-text)模型中,通过一个卷积网络,可以同时学到关键词和图像特征。
每届ICML,最受关注的便是Best Paper花落谁家。要知道,ICML的评委们对文章的筛选一向以“苛刻”著称。今年,最终归属于北京大学2009级博士生唐建的《Understanding the Limiting Factors of Topic Modeling via Posterior Contraction Analysis》,这是继去年百度深度学习实验室负责人余凯获得Best Paper银奖后再次争得国际顶级荣誉。
百度引领人工智能创新
据笔者不完全统计,本次大会收录了17篇来自中国的regular paper,其中来自工业界共计5篇,百度4篇,阿里1篇。百度大数据实验室负责人张潼从理论上解决了机器学习不同方向上的优化问题。例如,他提出AccProx-SDCA框架,优化了机器学习三大关键问题SVM、Lasso和Ridge Regression的运行时间。
从MLSS到ICML, Andrew Ng、张潼、余凯等豪华阵容先后亮相百度展台;产品上,从搜索广告CTR预估到各种预测的实现,再到移动产品的落地,显示出了领跑人工智能、机器学习领域的雄心和决心。

人工智能的下一突破
那么,人工智能新的突破在哪里?在深度学习晚宴的Panel discussion环节中,从Andrew Ng的回答中或许能找到答案。Andrew Ng谈到,近些年深度学习取得的显著进展,得益于基于大量标记数据(tagged data)的有监督学习(supervised learning)的研究。随着物理世界的数字化,大量标记数据产生,并且被提供给深度学习算法。如谷歌、百度这样的互联网公司已经从中获得价值。所以,有监督学习将在短期内仍是人工智能的研究重点,并在机器视觉、语音识别、广告和推荐系统等方面产生重要作用。

Andrew Ng认为,基于深度学习技术,App和硬件都将变得更加智能。试想这样一个应用场景,在开车的时候,只要说出“发件人我”,“回复给谁”,再说出邮件内容,手机会自动将语音准确转化为文本邮件,最终成功将邮件发送给接收人。在Andrew看来,未来几年手机将会是连接一切的桥梁,人类通过手机将开启智能生活。
另一方面,神经学家相信,动物和孩子往往是通过无标记数据(untagged data)来学习的。目前已经有科学家尝试在无标记数据上应用深度学习技术,但还没有找到合适的算法。未来,在这方面,可能会出现很多突破。据说,Andrew Ng带领的百度人工智能实验室将在这方面有所建树。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。