至顶网软件频道消息: 5月21日,2018微软人工智能大会(Microsoft AI Innovate)正式开幕,在AI、语音识别、图像识别等新兴技术不断升温的今天,微软再次为我们带来了一场前所未有的人工智能盛宴,在大会现场,微软全球资深技术院士,微软云与人工智能事业部黄学东在主题演讲中,阐述了27年前微软研究院成立之初的愿景:让电脑的未来能看会想、能听会讲,并且能够理解人类。现在很多这样的现实其实已经在中国发生了,比如微软中国的研发团队在研发微软小冰,并赋予其“眼观六路、耳听八方”的“全武功”。
微软全球资深技术院士,微软云与人工智能事业部 黄学东博士
黄学东:大家好,在人类进化的长河中,语音和语言起了决定性的作用,在人工智能进化的过程中,语音和语言也会起到同样的作用。今天我想给大家分享一下微软公司和众多同仁在人工智能进化中所做的不懈地努力。大家可以看出来,今天语音识别可以媲美人的水平,但是这些都是在近场和一到两个人会话的情况下达到的。如果你是远场,或者有很多人讲话,就是所谓的鸡尾酒会效应,由于酒太多,计算机也会醉,所以目前人工智能和人的差别还是蛮远的。
微软在不断地刷新人工智能的历史纪录,今年在人类的历史上第一次达到了中文、英文翻译超过了专业人士的水平。大家可以看这个表,这是靠人工盲测,就像教授给学生打分的情况下做出的成绩单,在微软最新的系统里面,达到了超过专业人士的水平,这比众包第三方的翻译水平高出了很多。当然,跟现有的产品相比,也是表现的非常出色和优秀。
微软有那么多领先的技术,当然应该服务于中国的客户,中国移动是世界上最大的电信营运商,拥有9亿的用户,微软今天非常高兴地向大家宣布,我们与世界上最大的语音数据合作伙伴完成了学术到产业的落地,微软语音识别技术能为中国移动的呼叫中心提供非常一流的服务。
除了语音识别,微软还会与中国移动继续在机器翻译等其他领域进行更深入的合作,形成微软人工智能技术落地中国市场的旗舰产品。黄学东分享到,微软最近推出的全新现代化的语音和翻译新产品,包括统一的语音解决方案。我在微软工作了将近25年,包括语音API都有很多不同的版本,今天微软有一款统一的讲话版本。同时,像计算机视觉一样,微软提供了一系列量身定制的功能,不仅仅是语音识别,还包括了唤醒式量身定制,包括了机器翻译的量身定制,还包括了语音合成的量身定制。当然,语音识别就像人工智能的云和边缘一样也需要边缘和云一起优化,微软提供了全球领先的麦克风阵列开发系统,代号PMA,就是普林斯顿麦克风阵列解决方案,根据评测,确立为世界一流的麦克风阵列系统。
如何量身定制的语音合成
怎样才能做到量身定制的语音合成?黄学东表示,大家现在知道跟各种智能音箱交互时,如果在陪伴小孩的时候能用妈妈的声音来讲故事,那该多么美妙;或者你跟音箱对话的时候,总是你的情人在跟你回答。只需要上传半个小时的声音样本,就可以量身定制美妙的声音;如果能上传3个小时的声音样本,那质量会有一个完美的提升;如果跟您与情人有10个小时的声音上传,那么,就可以制造一个非常甜美的声音出来。所以,微软提供了量身定制的各种服务,为了让人工智能落地,我们做出了不懈的努力。
微软的人工智能云和端离不开麦克风阵列,微软的麦克风阵列SDK是微软和中国的合作伙伴Roobo一起推出的。这个阵列能大大提高远场语音识别的能力。大家知道《封神演义》里面有一个很有名的故事叫“耳听八方”,靠微软这样的麦克风阵列就可以实现耳听八方的功能,可以做到八面玲珑。当然,光有这些工具,但没有落地还是不行,今天特地邀请了香蕉出行合伙人兼首席技术官于亮先生同台演示一下微软人工智能翻译器是如何落地中国的?有请于亮。
为会议系统提供数字转型
微软的黑科技不仅仅是帮助像中国移动和小米生态系统这样的公司,让人工智能在中国落地。除此之外,微软还有大量的黑科技。今天要给大家演示的是一款全球首创的AI人工智能会议系统,大家大概知道谷歌在宣传全双工语音通话,无非能让两个人自由的讲话。黄学东强调称,微软这个系统不仅仅是能支持两个人讲话,还能支持三个人讲话、四个人讲话、五个人讲话,是全三工、四工、五工——我开玩笑叫它“全武功”。它集成了微软全球领先的语音识别和语音计算机视觉系统,不仅仅是眼观六路、耳听八方,确实能为提高生产力的会议系统提供数字转型。
大家知道,任何公司最重要的决策都是在会议上做出的,但是讲完以后很多领导又不认账,无处可查。如果有微软的黑科技,有全球领先的人工智能会议系统,所有的语音内容都可以转录下来,会后可以变成像电子邮件一样有证可查。有了微软的黑科技,今天的会议可不是我们所认为的传统会议,因为这不是全三工,而是全五工,鸡尾酒会效应基本上在这个会议上是个特例,微软的语音识别系统可以同时支持很多人同时对话,知道谁讲了什么,谁说了什么,会议开完之后还可以去搜索,把所有的会议变成像电子邮件一样的内容。
黄学东最后表示,“这些功能是我们所有人很多年以前就梦想拥有的,同时也是微软研究院建立之初的一个愿景:让计算机能听、能看、能说。今天这个愿景已经不是我们自己的愿景,就在当下,让我们耳听八方、眼观六路,谢谢大家。”
好文章,需要你的鼓励
这项由加州大学圣地亚哥分校和微软研究院合作开发的REAL框架,通过程序分析反馈训练大型语言模型生成高质量代码。与传统方法不同,REAL采用强化学习将代码安全性和可维护性作为奖励信号,不依赖人工标注或特定规则。研究在多个数据集上的实验表明,REAL在保证功能正确性的同时显著提高了代码质量,有效解决了"即兴编程"中的安全漏洞和维护性问题,为AI辅助编程提供了新的范式。
加州大学伯克利分校与Meta FAIR研究团队开发了"Self-Challenging"框架,让大语言模型通过自己创建和解决任务来提升能力。该方法引入创新的"Code-as-Task"格式,包含指令、验证函数、示例解决方案和失败案例,确保生成的任务既可行又有挑战性。在工具计算、网页浏览、零售服务和航班预订四种环境测试中,仅使用自生成训练数据,Llama-3.1-8B模型性能提升了两倍多,证明AI可以通过自我挑战实现有效学习,减少对人类标注的依赖。
南洋理工大学与SenseTime Research合作提出了PoseFuse3D-KI,一种创新的人体中心关键帧插值框架。该方法将3D人体模型信息融入扩散过程,解决了现有技术在处理复杂人体动作时产生扭曲结果的问题。研究团队开发了专门的SMPL-X编码器直接从3D空间提取几何信息,并设计了融合网络将3D线索与2D姿态无缝整合。他们还构建了CHKI-Video数据集,包含2,614个视频片段及完整的人体标注。实验结果显示,PoseFuse3D-KI在PSNR上提升9%,LPIPS减少38%,显著超越现有方法。
这项研究提出了LongGuide算法,解决了大型语言模型在长文本生成任务中的局限性。研究团队发现,仅依靠上下文学习无法使模型充分掌握文本的语言和格式特性。LongGuide通过自动生成两种指导原则:度量指导原则和输出约束指导原则,显著提升了模型性能。在七种长文本生成任务中,该方法使开源和闭源模型的ROUGE-L评分平均提高约6%。LongGuide具有通用性强、易于学习、成本效益高等优点,为提升AI长文本生成能力提供了新方向。