最近在科技界,人工智能、机器学习可谓炙手可热。回想这一年,机器学习大佬们纷纷从学术界“跳槽”工业界,祖师爷Geoffrey Hinton被谷歌招入麾下,泰斗Yann Lecun加盟Facebook,前“谷歌大脑之父” Andrew Ng成为百度首席科学家。作为人工智能最重要的分支,近几年,机器学习取得的突破进展,让世界不得不为之瞩目。
这个六月,一场机器学习领域的饕餮盛宴正在上演。国际机器学习大会(ICML)和机器学习暑期国际研讨会(MLSS)这两个机器学习顶级会议首次来到北京。人工智能为何如此火爆?学术界与工业界有哪些新进展?人工智能下一突破会在何处?笔者抓住这个千载难逢的机会,来到现场,不仅能近距离膜拜大师,更期待找到问题的答案。
两大盛会首来中国,原因何在
今年,ICML和MLSS齐聚北京,可谓史无前例。究竟是什么吸引两大机器学习顶级会议从欧美移驾中国、各位人工智能大师千里迢迢赴京?笔者认为,中国目前在人工智能领域可谓异军突起,无论学术界还是工业界都有亮眼表现。
从国家层面,政府高度重视发展人工智能技术,人才方面,越来越多就读于世界顶级名校的中国学子学成归国,工业方面,中国真正做到了技术的工业落地,尤其在互联网产品上变现能力极强。
人工智能研究新成果
去年ICML大会上, Andrew Ng带领学生Adam Coates利用2万美金的GPU集群做到了谷歌价值约100万美金服务器集群识别猫脸同样的效果。今年,谷歌实验室科学家Quoc Le带来了提取语句和文本特征的新方法。通过加入一层Paragraph Vector来表示语境,巧妙的解决了传统“bag-of-words”(词袋)模型无序和语意缺失的问题。
自然语音处理领域鼻祖,加拿大蒙特利尔大学的Yoshua Bengio教授将传统Denoising Auto-encoder(DAE)算法训练循环(training epoch)中数据的损失边缘化(marginalized),实现了用少量的训练循环达到或超过DAE模型的效果。
机器学习泰斗Geoffrey Hinton的学生,加拿大多伦多大学教授Ruslan Salakhutdinov则介绍了关于自然语言的多模态神经语言模型(multimodal neural language)。在图文(image-text)模型中,通过一个卷积网络,可以同时学到关键词和图像特征。
每届ICML,最受关注的便是Best Paper花落谁家。要知道,ICML的评委们对文章的筛选一向以“苛刻”著称。今年,最终归属于北京大学2009级博士生唐建的《Understanding the Limiting Factors of Topic Modeling via Posterior Contraction Analysis》,这是继去年百度深度学习实验室负责人余凯获得Best Paper银奖后再次争得国际顶级荣誉。
百度引领人工智能创新
据笔者不完全统计,本次大会收录了17篇来自中国的regular paper,其中来自工业界共计5篇,百度4篇,阿里1篇。百度大数据实验室负责人张潼从理论上解决了机器学习不同方向上的优化问题。例如,他提出AccProx-SDCA框架,优化了机器学习三大关键问题SVM、Lasso和Ridge Regression的运行时间。
从MLSS到ICML, Andrew Ng、张潼、余凯等豪华阵容先后亮相百度展台;产品上,从搜索广告CTR预估到各种预测的实现,再到移动产品的落地,显示出了领跑人工智能、机器学习领域的雄心和决心。
人工智能的下一突破
那么,人工智能新的突破在哪里?在深度学习晚宴的Panel discussion环节中,从Andrew Ng的回答中或许能找到答案。Andrew Ng谈到,近些年深度学习取得的显著进展,得益于基于大量标记数据(tagged data)的有监督学习(supervised learning)的研究。随着物理世界的数字化,大量标记数据产生,并且被提供给深度学习算法。如谷歌、百度这样的互联网公司已经从中获得价值。所以,有监督学习将在短期内仍是人工智能的研究重点,并在机器视觉、语音识别、广告和推荐系统等方面产生重要作用。
Andrew Ng认为,基于深度学习技术,App和硬件都将变得更加智能。试想这样一个应用场景,在开车的时候,只要说出“发件人我”,“回复给谁”,再说出邮件内容,手机会自动将语音准确转化为文本邮件,最终成功将邮件发送给接收人。在Andrew看来,未来几年手机将会是连接一切的桥梁,人类通过手机将开启智能生活。
另一方面,神经学家相信,动物和孩子往往是通过无标记数据(untagged data)来学习的。目前已经有科学家尝试在无标记数据上应用深度学习技术,但还没有找到合适的算法。未来,在这方面,可能会出现很多突破。据说,Andrew Ng带领的百度人工智能实验室将在这方面有所建树。
好文章,需要你的鼓励
在AI智能体的发展中,记忆能力成为区分不同类型的关键因素。专家将AI智能体分为七类:简单反射、基于模型反射、目标导向、效用导向、学习型、多智能体系统和层次化智能体。有状态的智能体具备数据记忆能力,能提供持续上下文,而无状态系统每次都重新开始。未来AI需要实现实时记忆访问,将存储与计算集成在同一位置,从而创造出具备人类般记忆能力的数字孪生系统。
中国人民大学和字节跳动联合提出Pass@k训练方法,通过给AI模型多次答题机会来平衡探索与利用。该方法不仅提升了模型的多样性表现,还意外改善了单次答题准确率。实验显示,经过训练的7B参数模型在某些任务上超越了GPT-4o等大型商业模型,为AI训练方法论贡献了重要洞察。
OpenAI首席执行官阿尔特曼表示,公司计划在不久的将来投入数万亿美元用于AI基础设施建设,包括数据中心建设等。他正在设计新型金融工具来筹集资金。阿尔特曼认为当前AI投资存在过度兴奋现象,类似于90年代互联网泡沫,但AI技术本身是真实且重要的。他承认GPT-5发布存在问题,并表示OpenAI未来可能会上市。
南加州大学等机构研究团队开发出突破性的"N-gram覆盖攻击"方法,仅通过分析AI模型生成的文本内容就能检测其是否记住了训练数据,无需访问模型内部信息。该方法在多个数据集上超越传统方法,效率提升2.6倍。研究还发现新一代AI模型如GPT-4o展现出更强隐私保护能力,为AI隐私审计和版权保护提供了实用工具。