本周,我有幸在伦敦英国皇家工程院发表演讲。院长Ann Dowling希望我在演讲中分享我最引以为傲的工程技术成就,这着实难倒了我。并非因为我想不出任何值得骄傲的事情,但是,谈论个人的成就对我来说是一件很困难的事情。
因为任何的成绩并不只是我个人的功劳。我非常幸运有我的卡内基梅隆大学博士导师Raj Reddy教授这样的良师益友,更因为有多年来与我共事的世界各地的优秀团队。
正如中国的一句谚语所言:“单丝不成线,孤木不成林”,我一直认为,真正伟大的成就永远不可能是某一个人的努力。
要说我最引以为豪的事情,也许是我有幸在计算机科学领域,从研究到产品,做出了一点不足为道的个人贡献。
当年我在美国卡内基梅隆大学读博士时,在3D计算机视觉领域, 用2D图像构建3D模型技术尚处于起步阶段。用基于图像的建模和渲染的技术,我为卡内基梅隆大学的计算机科学大楼“Wean Hall”创建了第一个逼真的3D模型。
多年来,我和同事学生们撰写了多篇计算机视觉和计算机图形学的科研论文。这些论文将让我有机会给这个世界留下一些东西,如果幸运的话,它们还能够给一两个人予以启发。我还意外地发现了一个秘诀,就是如何写论文不被SIGGRAPH(世界计算机图形大会)拒绝:论文标题必须是两个单词,并且以“-ing”结尾!比如全光采样(Plenopic Sampling)、 慵懒抠图(Lazy Snapping)、泊松融合(Poisson Matting)… 这个方法百试不爽,还没人发现我的秘密!
后来,我有机会离开研究院去领导微软的一个工程和产品团队,开发一个当时规模很小的业务,一个名为“Bing”(必应)的全球搜索引擎。我想把我的研究知识运用到现实世界中去,通过产品来帮助所有人,而不仅仅是学术界。
经常有人问我:“既然已经有了一个很好的搜索引擎,那么我们为什么还要如此辛苦地开发一个新的?”我告诉他们,如果你在没有Bing的国家试过搜索,你会发现美国或英国的搜索质量明显好出很多。
良性竞争总能最大程度发挥各个公司的潜能并让消费者受益,这使得两种全球搜索引擎的用户都能享受到更高质量的服务。我们致力于为每个人提高用户体验的标准,无论你是否使用Bing。
但这不仅仅是产品质量或用户体验的问题,我们还肩负着一项更重大的责任,即公平、准确、无偏见地处理信息。
搜索引擎提供商以及社交网络服务商有责任有义务为社会公正地展示不同的观点。无论在过去还是现在Bing都一直引领这条道路。所以,在我职业生涯的这段时间里,我非常自豪Bing为全球用户所作的贡献。
在产品开发所付出的这段时光是非常值得的,但是我始终保持着对研究工作的热爱。我感到非常幸运的是,我能够将自己职业生涯的一半时间投入到科学研究领域,而另一半投入到产品研发之中。
两年前,我们在班加罗尔庆祝微软印度研究院10周年;去年,我们在英国庆祝微软剑桥研究院成立20周年;今年,我们还将在北京迎来微软亚洲研究院成立20周年的庆典。在微软亚洲研究院,我度过了近9年难忘的时光。
自1991年以来,微软研究院在全球范围内培养了众多出色的人才,取得了不胜枚举的创新成就。我们培训了1万多名研究实习生,发表了22,000余篇论文,在全球范围内获得了超过4,000项专利,还有数千项专利正在申请中。在推动计算机科学向前发展方面,微软研究院的影响力超出了我的想象,我很自豪能够成为这个伟大集体的一员。
回顾过去,最让我感到自豪的不仅是我撰写过的论文、或是我参与创造的产品、也不仅是我们打造的出色的研究环境;而是为下一代的学生和研究人员、以及全球所有受益与科技的人们,所带来的影响。
这次演讲也让我有机会停下来反思一下我在职业生涯中学到的一些经验教训,我认为它们远远超出了工程的范畴。要永远保持好奇、乐于学习和尝试不同的东西,不要害怕去创造新的东西,最重要的是,从中获得乐趣!我真心相信,如果带着这些想法去追求你的理想,你一定会取得成功。
作者:沈向洋 微软全球执行副总裁、微软人工智能及微软研究事业部负责人
好文章,需要你的鼓励
Meta超级智能实验室推出的SAM 3D模型,通过创新的"模型在环"数据标注流程和多阶段训练策略,成功实现从单张图像重建完整3D物体的能力。该研究打破了3D领域的数据壁垒,在真实世界场景中展现出远超现有方法的性能,为机器人、AR/VR、游戏制作等应用开启新可能。
香港中文大学等顶尖院校联合研究发现,当前最先进的AI视频生成技术已能制作出连顶级检测系统都无法识别的假视频。研究团队开发了Video Reality Test平台,测试结果显示最强生成模型Veo3.1-Fast的假视频仅有12.54%被识别,而最强检测系统Gemini 2.5-Pro准确率仅56%,远低于人类专家的81.25%。研究还发现检测系统过度依赖水印等表面特征,音频信息能提升检测准确性,但技术发展已对信息真实性判断带来严峻挑战。
AWS推出Transform Composability平台,帮助服务提供商构建专门处理大机云迁移的AI智能体。合作伙伴可将领域专业知识编码为可重用工具,自动化迁移过程同时保持核心系统功能。该平台将现代化时间从数年缩短至数月,相比传统方法可降低30%-40%成本。埃森哲、凯捷、IBM等公司已参与早期贡献。
Google DeepMind团队提出了革命性的"扩散预览"模式,通过ConsistencySolver技术实现AI图像生成的"预览+精修"工作流程。该技术能在5-10步内生成高质量预览图像,与传统40步完整生成保持高度一致性,用户体验测试显示总体时间节省近50%,大大提高了创作效率和创意探索的自由度。