本周,我有幸在伦敦英国皇家工程院发表演讲。院长Ann Dowling希望我在演讲中分享我最引以为傲的工程技术成就,这着实难倒了我。并非因为我想不出任何值得骄傲的事情,但是,谈论个人的成就对我来说是一件很困难的事情。
因为任何的成绩并不只是我个人的功劳。我非常幸运有我的卡内基梅隆大学博士导师Raj Reddy教授这样的良师益友,更因为有多年来与我共事的世界各地的优秀团队。
正如中国的一句谚语所言:“单丝不成线,孤木不成林”,我一直认为,真正伟大的成就永远不可能是某一个人的努力。
要说我最引以为豪的事情,也许是我有幸在计算机科学领域,从研究到产品,做出了一点不足为道的个人贡献。
当年我在美国卡内基梅隆大学读博士时,在3D计算机视觉领域, 用2D图像构建3D模型技术尚处于起步阶段。用基于图像的建模和渲染的技术,我为卡内基梅隆大学的计算机科学大楼“Wean Hall”创建了第一个逼真的3D模型。
多年来,我和同事学生们撰写了多篇计算机视觉和计算机图形学的科研论文。这些论文将让我有机会给这个世界留下一些东西,如果幸运的话,它们还能够给一两个人予以启发。我还意外地发现了一个秘诀,就是如何写论文不被SIGGRAPH(世界计算机图形大会)拒绝:论文标题必须是两个单词,并且以“-ing”结尾!比如全光采样(Plenopic Sampling)、 慵懒抠图(Lazy Snapping)、泊松融合(Poisson Matting)… 这个方法百试不爽,还没人发现我的秘密!
后来,我有机会离开研究院去领导微软的一个工程和产品团队,开发一个当时规模很小的业务,一个名为“Bing”(必应)的全球搜索引擎。我想把我的研究知识运用到现实世界中去,通过产品来帮助所有人,而不仅仅是学术界。
经常有人问我:“既然已经有了一个很好的搜索引擎,那么我们为什么还要如此辛苦地开发一个新的?”我告诉他们,如果你在没有Bing的国家试过搜索,你会发现美国或英国的搜索质量明显好出很多。
良性竞争总能最大程度发挥各个公司的潜能并让消费者受益,这使得两种全球搜索引擎的用户都能享受到更高质量的服务。我们致力于为每个人提高用户体验的标准,无论你是否使用Bing。
但这不仅仅是产品质量或用户体验的问题,我们还肩负着一项更重大的责任,即公平、准确、无偏见地处理信息。
搜索引擎提供商以及社交网络服务商有责任有义务为社会公正地展示不同的观点。无论在过去还是现在Bing都一直引领这条道路。所以,在我职业生涯的这段时间里,我非常自豪Bing为全球用户所作的贡献。
在产品开发所付出的这段时光是非常值得的,但是我始终保持着对研究工作的热爱。我感到非常幸运的是,我能够将自己职业生涯的一半时间投入到科学研究领域,而另一半投入到产品研发之中。
两年前,我们在班加罗尔庆祝微软印度研究院10周年;去年,我们在英国庆祝微软剑桥研究院成立20周年;今年,我们还将在北京迎来微软亚洲研究院成立20周年的庆典。在微软亚洲研究院,我度过了近9年难忘的时光。
自1991年以来,微软研究院在全球范围内培养了众多出色的人才,取得了不胜枚举的创新成就。我们培训了1万多名研究实习生,发表了22,000余篇论文,在全球范围内获得了超过4,000项专利,还有数千项专利正在申请中。在推动计算机科学向前发展方面,微软研究院的影响力超出了我的想象,我很自豪能够成为这个伟大集体的一员。
回顾过去,最让我感到自豪的不仅是我撰写过的论文、或是我参与创造的产品、也不仅是我们打造的出色的研究环境;而是为下一代的学生和研究人员、以及全球所有受益与科技的人们,所带来的影响。
这次演讲也让我有机会停下来反思一下我在职业生涯中学到的一些经验教训,我认为它们远远超出了工程的范畴。要永远保持好奇、乐于学习和尝试不同的东西,不要害怕去创造新的东西,最重要的是,从中获得乐趣!我真心相信,如果带着这些想法去追求你的理想,你一定会取得成功。
作者:沈向洋 微软全球执行副总裁、微软人工智能及微软研究事业部负责人
好文章,需要你的鼓励
数据分析平台公司Databricks完成10亿美元K轮融资,公司估值超过1000亿美元,累计融资总额超过200亿美元。公司第二季度收入运营率达到40亿美元,同比增长50%,AI产品收入运营率超过10亿美元。超过650家客户年消费超过100万美元,净收入留存率超过140%。资金将用于扩展Agent Bricks和Lakebase业务及全球扩张。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
医疗信息管理平台Predoc宣布获得3000万美元新融资,用于扩大运营规模并在肿瘤科、研究网络和虚拟医疗提供商中推广应用。该公司成立于2022年,利用人工智能技术提供端到端平台服务,自动化病历检索并整合为可操作的临床洞察。平台可实现病历检索速度提升75%,临床审查时间减少70%,旨在增强而非替代临床判断。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。