至顶网软件频道消息: 5月21日,2018微软人工智能大会(Microsoft AI Innovate)正式开幕,在AI、语音识别、图像识别等新兴技术不断升温的今天,微软再次为我们带来了一场前所未有的人工智能盛宴,在大会现场,微软全球资深技术院士,微软云与人工智能事业部黄学东在主题演讲中,阐述了27年前微软研究院成立之初的愿景:让电脑的未来能看会想、能听会讲,并且能够理解人类。现在很多这样的现实其实已经在中国发生了,比如微软中国的研发团队在研发微软小冰,并赋予其“眼观六路、耳听八方”的“全武功”。
微软全球资深技术院士,微软云与人工智能事业部 黄学东博士
黄学东:大家好,在人类进化的长河中,语音和语言起了决定性的作用,在人工智能进化的过程中,语音和语言也会起到同样的作用。今天我想给大家分享一下微软公司和众多同仁在人工智能进化中所做的不懈地努力。大家可以看出来,今天语音识别可以媲美人的水平,但是这些都是在近场和一到两个人会话的情况下达到的。如果你是远场,或者有很多人讲话,就是所谓的鸡尾酒会效应,由于酒太多,计算机也会醉,所以目前人工智能和人的差别还是蛮远的。
微软在不断地刷新人工智能的历史纪录,今年在人类的历史上第一次达到了中文、英文翻译超过了专业人士的水平。大家可以看这个表,这是靠人工盲测,就像教授给学生打分的情况下做出的成绩单,在微软最新的系统里面,达到了超过专业人士的水平,这比众包第三方的翻译水平高出了很多。当然,跟现有的产品相比,也是表现的非常出色和优秀。
微软有那么多领先的技术,当然应该服务于中国的客户,中国移动是世界上最大的电信营运商,拥有9亿的用户,微软今天非常高兴地向大家宣布,我们与世界上最大的语音数据合作伙伴完成了学术到产业的落地,微软语音识别技术能为中国移动的呼叫中心提供非常一流的服务。
除了语音识别,微软还会与中国移动继续在机器翻译等其他领域进行更深入的合作,形成微软人工智能技术落地中国市场的旗舰产品。黄学东分享到,微软最近推出的全新现代化的语音和翻译新产品,包括统一的语音解决方案。我在微软工作了将近25年,包括语音API都有很多不同的版本,今天微软有一款统一的讲话版本。同时,像计算机视觉一样,微软提供了一系列量身定制的功能,不仅仅是语音识别,还包括了唤醒式量身定制,包括了机器翻译的量身定制,还包括了语音合成的量身定制。当然,语音识别就像人工智能的云和边缘一样也需要边缘和云一起优化,微软提供了全球领先的麦克风阵列开发系统,代号PMA,就是普林斯顿麦克风阵列解决方案,根据评测,确立为世界一流的麦克风阵列系统。
如何量身定制的语音合成
怎样才能做到量身定制的语音合成?黄学东表示,大家现在知道跟各种智能音箱交互时,如果在陪伴小孩的时候能用妈妈的声音来讲故事,那该多么美妙;或者你跟音箱对话的时候,总是你的情人在跟你回答。只需要上传半个小时的声音样本,就可以量身定制美妙的声音;如果能上传3个小时的声音样本,那质量会有一个完美的提升;如果跟您与情人有10个小时的声音上传,那么,就可以制造一个非常甜美的声音出来。所以,微软提供了量身定制的各种服务,为了让人工智能落地,我们做出了不懈的努力。
微软的人工智能云和端离不开麦克风阵列,微软的麦克风阵列SDK是微软和中国的合作伙伴Roobo一起推出的。这个阵列能大大提高远场语音识别的能力。大家知道《封神演义》里面有一个很有名的故事叫“耳听八方”,靠微软这样的麦克风阵列就可以实现耳听八方的功能,可以做到八面玲珑。当然,光有这些工具,但没有落地还是不行,今天特地邀请了香蕉出行合伙人兼首席技术官于亮先生同台演示一下微软人工智能翻译器是如何落地中国的?有请于亮。
为会议系统提供数字转型
微软的黑科技不仅仅是帮助像中国移动和小米生态系统这样的公司,让人工智能在中国落地。除此之外,微软还有大量的黑科技。今天要给大家演示的是一款全球首创的AI人工智能会议系统,大家大概知道谷歌在宣传全双工语音通话,无非能让两个人自由的讲话。黄学东强调称,微软这个系统不仅仅是能支持两个人讲话,还能支持三个人讲话、四个人讲话、五个人讲话,是全三工、四工、五工——我开玩笑叫它“全武功”。它集成了微软全球领先的语音识别和语音计算机视觉系统,不仅仅是眼观六路、耳听八方,确实能为提高生产力的会议系统提供数字转型。
大家知道,任何公司最重要的决策都是在会议上做出的,但是讲完以后很多领导又不认账,无处可查。如果有微软的黑科技,有全球领先的人工智能会议系统,所有的语音内容都可以转录下来,会后可以变成像电子邮件一样有证可查。有了微软的黑科技,今天的会议可不是我们所认为的传统会议,因为这不是全三工,而是全五工,鸡尾酒会效应基本上在这个会议上是个特例,微软的语音识别系统可以同时支持很多人同时对话,知道谁讲了什么,谁说了什么,会议开完之后还可以去搜索,把所有的会议变成像电子邮件一样的内容。
黄学东最后表示,“这些功能是我们所有人很多年以前就梦想拥有的,同时也是微软研究院建立之初的一个愿景:让计算机能听、能看、能说。今天这个愿景已经不是我们自己的愿景,就在当下,让我们耳听八方、眼观六路,谢谢大家。”
好文章,需要你的鼓励
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。
这项由中国人民大学高瓴人工智能学院研究团队发表的研究解决了大语言模型评判中的自我偏好问题。研究提出了DBG分数,通过比较模型给自身回答的分数与黄金判断的差异来测量偏好度,有效分离了回答质量与自我偏好偏差。实验发现,预训练和后训练模型都存在自我偏好,但大模型比小模型偏好度更低;调整回答风格和使用相同数据训练不同模型可减轻偏好。研究还从注意力分析角度揭示了自我偏好的潜在机制,为提高AI评判客观性提供了重要指导。
这篇研究提出了DenseDPO,一种改进视频生成模型的新方法,通过三大创新解决了传统方法中的"静态偏好"问题:使用结构相似的视频对进行比较,采集细粒度的时序偏好标注,并利用现有视觉语言模型自动标注。实验表明,DenseDPO不仅保留了视频的动态性,还在视觉质量方面与传统方法相当,同时大大提高了数据效率。这项技术有望推动AI生成更加自然、动态的视频内容。