至顶网软件频道消息: 5月21日,2018微软人工智能大会(Microsoft AI Innovate)正式开幕,在AI、语音识别、图像识别等新兴技术不断升温的今天,微软再次为我们带来了一场前所未有的人工智能盛宴,在大会现场,微软全球资深技术院士,微软云与人工智能事业部黄学东在主题演讲中,阐述了27年前微软研究院成立之初的愿景:让电脑的未来能看会想、能听会讲,并且能够理解人类。现在很多这样的现实其实已经在中国发生了,比如微软中国的研发团队在研发微软小冰,并赋予其“眼观六路、耳听八方”的“全武功”。
微软全球资深技术院士,微软云与人工智能事业部 黄学东博士
黄学东:大家好,在人类进化的长河中,语音和语言起了决定性的作用,在人工智能进化的过程中,语音和语言也会起到同样的作用。今天我想给大家分享一下微软公司和众多同仁在人工智能进化中所做的不懈地努力。大家可以看出来,今天语音识别可以媲美人的水平,但是这些都是在近场和一到两个人会话的情况下达到的。如果你是远场,或者有很多人讲话,就是所谓的鸡尾酒会效应,由于酒太多,计算机也会醉,所以目前人工智能和人的差别还是蛮远的。
微软在不断地刷新人工智能的历史纪录,今年在人类的历史上第一次达到了中文、英文翻译超过了专业人士的水平。大家可以看这个表,这是靠人工盲测,就像教授给学生打分的情况下做出的成绩单,在微软最新的系统里面,达到了超过专业人士的水平,这比众包第三方的翻译水平高出了很多。当然,跟现有的产品相比,也是表现的非常出色和优秀。
微软有那么多领先的技术,当然应该服务于中国的客户,中国移动是世界上最大的电信营运商,拥有9亿的用户,微软今天非常高兴地向大家宣布,我们与世界上最大的语音数据合作伙伴完成了学术到产业的落地,微软语音识别技术能为中国移动的呼叫中心提供非常一流的服务。
除了语音识别,微软还会与中国移动继续在机器翻译等其他领域进行更深入的合作,形成微软人工智能技术落地中国市场的旗舰产品。黄学东分享到,微软最近推出的全新现代化的语音和翻译新产品,包括统一的语音解决方案。我在微软工作了将近25年,包括语音API都有很多不同的版本,今天微软有一款统一的讲话版本。同时,像计算机视觉一样,微软提供了一系列量身定制的功能,不仅仅是语音识别,还包括了唤醒式量身定制,包括了机器翻译的量身定制,还包括了语音合成的量身定制。当然,语音识别就像人工智能的云和边缘一样也需要边缘和云一起优化,微软提供了全球领先的麦克风阵列开发系统,代号PMA,就是普林斯顿麦克风阵列解决方案,根据评测,确立为世界一流的麦克风阵列系统。
如何量身定制的语音合成
怎样才能做到量身定制的语音合成?黄学东表示,大家现在知道跟各种智能音箱交互时,如果在陪伴小孩的时候能用妈妈的声音来讲故事,那该多么美妙;或者你跟音箱对话的时候,总是你的情人在跟你回答。只需要上传半个小时的声音样本,就可以量身定制美妙的声音;如果能上传3个小时的声音样本,那质量会有一个完美的提升;如果跟您与情人有10个小时的声音上传,那么,就可以制造一个非常甜美的声音出来。所以,微软提供了量身定制的各种服务,为了让人工智能落地,我们做出了不懈的努力。
微软的人工智能云和端离不开麦克风阵列,微软的麦克风阵列SDK是微软和中国的合作伙伴Roobo一起推出的。这个阵列能大大提高远场语音识别的能力。大家知道《封神演义》里面有一个很有名的故事叫“耳听八方”,靠微软这样的麦克风阵列就可以实现耳听八方的功能,可以做到八面玲珑。当然,光有这些工具,但没有落地还是不行,今天特地邀请了香蕉出行合伙人兼首席技术官于亮先生同台演示一下微软人工智能翻译器是如何落地中国的?有请于亮。
为会议系统提供数字转型
微软的黑科技不仅仅是帮助像中国移动和小米生态系统这样的公司,让人工智能在中国落地。除此之外,微软还有大量的黑科技。今天要给大家演示的是一款全球首创的AI人工智能会议系统,大家大概知道谷歌在宣传全双工语音通话,无非能让两个人自由的讲话。黄学东强调称,微软这个系统不仅仅是能支持两个人讲话,还能支持三个人讲话、四个人讲话、五个人讲话,是全三工、四工、五工——我开玩笑叫它“全武功”。它集成了微软全球领先的语音识别和语音计算机视觉系统,不仅仅是眼观六路、耳听八方,确实能为提高生产力的会议系统提供数字转型。
大家知道,任何公司最重要的决策都是在会议上做出的,但是讲完以后很多领导又不认账,无处可查。如果有微软的黑科技,有全球领先的人工智能会议系统,所有的语音内容都可以转录下来,会后可以变成像电子邮件一样有证可查。有了微软的黑科技,今天的会议可不是我们所认为的传统会议,因为这不是全三工,而是全五工,鸡尾酒会效应基本上在这个会议上是个特例,微软的语音识别系统可以同时支持很多人同时对话,知道谁讲了什么,谁说了什么,会议开完之后还可以去搜索,把所有的会议变成像电子邮件一样的内容。
黄学东最后表示,“这些功能是我们所有人很多年以前就梦想拥有的,同时也是微软研究院建立之初的一个愿景:让计算机能听、能看、能说。今天这个愿景已经不是我们自己的愿景,就在当下,让我们耳听八方、眼观六路,谢谢大家。”
好文章,需要你的鼓励
联想在CES展会上发布了AI助手Qira,该系统可跨联想和摩托罗拉设备生态运行,包括智能手机、可穿戴设备、PC和平板等。Qira不仅是聊天机器人,还能执行实际任务,如设备间文件传输。该系统具备情境感知能力,通过融合知识库创建个性化体验。联想强调隐私保护,优先本地处理数据。Qira将于2026年第一季度首先在联想设备上推出。摩托罗拉还展示了搭载Qira的AI可穿戴设备Project Maxwell概念产品。
剑桥大学研究团队首次系统探索AI在多轮对话中的信心判断问题。研究发现当前AI系统在评估自己答案可靠性方面存在严重缺陷,容易被对话长度而非信息质量误导。团队提出P(SUFFICIENT)等新方法,但整体问题仍待解决。该研究为AI在医疗、法律等关键领域的安全应用提供重要指导,强调了开发更可信AI系统的紧迫性。
在CES 2026主题演讲中,麦肯锡全球管理合伙人鲍勃·斯特恩费尔斯和通用催化剂CEO赫曼特·塔内贾表示,AI正以前所未有的速度重塑技术领域。塔内贾指出,Anthropic估值在一年内从600亿美元飙升至数千亿美元,预计将出现新一波万亿美元公司。然而,非技术企业对AI全面采用仍持观望态度。两位高管强调,人们必须认识到技能培训和再培训将是终身事业,传统的22年学习40年工作模式已被打破。
威斯康星大学研究团队开发出Prithvi-CAFE洪水监测系统,通过"双视觉协作"机制解决了AI地理基础模型在洪水识别上的局限性。该系统巧妙融合全局理解和局部细节能力,在国际标准数据集上创造最佳成绩,参数效率提升93%,为全球洪水预警和防灾减灾提供了更准确可靠的技术方案。