至顶网软件频道消息: 5月21日,2018微软人工智能大会(Microsoft AI Innovate)正式开幕,在AI、语音识别、图像识别等新兴技术不断升温的今天,微软再次为我们带来了一场前所未有的人工智能盛宴,在大会现场,微软全球资深技术院士,微软云与人工智能事业部黄学东在主题演讲中,阐述了27年前微软研究院成立之初的愿景:让电脑的未来能看会想、能听会讲,并且能够理解人类。现在很多这样的现实其实已经在中国发生了,比如微软中国的研发团队在研发微软小冰,并赋予其“眼观六路、耳听八方”的“全武功”。
微软全球资深技术院士,微软云与人工智能事业部 黄学东博士
黄学东:大家好,在人类进化的长河中,语音和语言起了决定性的作用,在人工智能进化的过程中,语音和语言也会起到同样的作用。今天我想给大家分享一下微软公司和众多同仁在人工智能进化中所做的不懈地努力。大家可以看出来,今天语音识别可以媲美人的水平,但是这些都是在近场和一到两个人会话的情况下达到的。如果你是远场,或者有很多人讲话,就是所谓的鸡尾酒会效应,由于酒太多,计算机也会醉,所以目前人工智能和人的差别还是蛮远的。
微软在不断地刷新人工智能的历史纪录,今年在人类的历史上第一次达到了中文、英文翻译超过了专业人士的水平。大家可以看这个表,这是靠人工盲测,就像教授给学生打分的情况下做出的成绩单,在微软最新的系统里面,达到了超过专业人士的水平,这比众包第三方的翻译水平高出了很多。当然,跟现有的产品相比,也是表现的非常出色和优秀。
微软有那么多领先的技术,当然应该服务于中国的客户,中国移动是世界上最大的电信营运商,拥有9亿的用户,微软今天非常高兴地向大家宣布,我们与世界上最大的语音数据合作伙伴完成了学术到产业的落地,微软语音识别技术能为中国移动的呼叫中心提供非常一流的服务。
除了语音识别,微软还会与中国移动继续在机器翻译等其他领域进行更深入的合作,形成微软人工智能技术落地中国市场的旗舰产品。黄学东分享到,微软最近推出的全新现代化的语音和翻译新产品,包括统一的语音解决方案。我在微软工作了将近25年,包括语音API都有很多不同的版本,今天微软有一款统一的讲话版本。同时,像计算机视觉一样,微软提供了一系列量身定制的功能,不仅仅是语音识别,还包括了唤醒式量身定制,包括了机器翻译的量身定制,还包括了语音合成的量身定制。当然,语音识别就像人工智能的云和边缘一样也需要边缘和云一起优化,微软提供了全球领先的麦克风阵列开发系统,代号PMA,就是普林斯顿麦克风阵列解决方案,根据评测,确立为世界一流的麦克风阵列系统。
如何量身定制的语音合成
怎样才能做到量身定制的语音合成?黄学东表示,大家现在知道跟各种智能音箱交互时,如果在陪伴小孩的时候能用妈妈的声音来讲故事,那该多么美妙;或者你跟音箱对话的时候,总是你的情人在跟你回答。只需要上传半个小时的声音样本,就可以量身定制美妙的声音;如果能上传3个小时的声音样本,那质量会有一个完美的提升;如果跟您与情人有10个小时的声音上传,那么,就可以制造一个非常甜美的声音出来。所以,微软提供了量身定制的各种服务,为了让人工智能落地,我们做出了不懈的努力。
微软的人工智能云和端离不开麦克风阵列,微软的麦克风阵列SDK是微软和中国的合作伙伴Roobo一起推出的。这个阵列能大大提高远场语音识别的能力。大家知道《封神演义》里面有一个很有名的故事叫“耳听八方”,靠微软这样的麦克风阵列就可以实现耳听八方的功能,可以做到八面玲珑。当然,光有这些工具,但没有落地还是不行,今天特地邀请了香蕉出行合伙人兼首席技术官于亮先生同台演示一下微软人工智能翻译器是如何落地中国的?有请于亮。
为会议系统提供数字转型
微软的黑科技不仅仅是帮助像中国移动和小米生态系统这样的公司,让人工智能在中国落地。除此之外,微软还有大量的黑科技。今天要给大家演示的是一款全球首创的AI人工智能会议系统,大家大概知道谷歌在宣传全双工语音通话,无非能让两个人自由的讲话。黄学东强调称,微软这个系统不仅仅是能支持两个人讲话,还能支持三个人讲话、四个人讲话、五个人讲话,是全三工、四工、五工——我开玩笑叫它“全武功”。它集成了微软全球领先的语音识别和语音计算机视觉系统,不仅仅是眼观六路、耳听八方,确实能为提高生产力的会议系统提供数字转型。
大家知道,任何公司最重要的决策都是在会议上做出的,但是讲完以后很多领导又不认账,无处可查。如果有微软的黑科技,有全球领先的人工智能会议系统,所有的语音内容都可以转录下来,会后可以变成像电子邮件一样有证可查。有了微软的黑科技,今天的会议可不是我们所认为的传统会议,因为这不是全三工,而是全五工,鸡尾酒会效应基本上在这个会议上是个特例,微软的语音识别系统可以同时支持很多人同时对话,知道谁讲了什么,谁说了什么,会议开完之后还可以去搜索,把所有的会议变成像电子邮件一样的内容。
黄学东最后表示,“这些功能是我们所有人很多年以前就梦想拥有的,同时也是微软研究院建立之初的一个愿景:让计算机能听、能看、能说。今天这个愿景已经不是我们自己的愿景,就在当下,让我们耳听八方、眼观六路,谢谢大家。”
好文章,需要你的鼓励
Google 推出最新的 Gemini 2.5 Pro (实验版) AI 模型,并以罕见的速度向免费用户开放。该模型支持模拟推理,提高了准确性,并在 LMSYS 聊天机器人竞技场排行榜上名列前茅。免费用户可在网页上试用,但有使用限制,无法上传文件,且有未明确的token和使用次数限制。
Gartner 预测,大语言模型 (LLM) 提供商市场即将进入"灭绝"阶段。在竞争激烈的环境下,巨额资本投入成为主要挑战。预计到 2025 年,全球生成式 AI 支出将达到 6440 亿美元,较 2024 年增长 76%。专家认为,LLM 市场将经历类似云计算市场的整合,最终可能只剩少数几家主导者。
苹果公司推出新一代 AI 智能服务 Apple Intelligence,包括优先通知等多项功能。该服务现已覆盖欧盟用户和 Vision Pro 设备,并支持多种语言。新功能随 iOS 18.4 等系统更新推出,涵盖通知管理、图像生成和视频创作等方面,进一步提升用户体验。
OpenAI计划今年晚些时候向开发者社区发布一个"开放权重"模型,这是该公司自2019年以来的首次尝试。新模型将具备推理能力,类似于现有的o3-mini模型。这一战略转变旨在应对来自竞争对手的压力,同时为开发者提供更多定制和使用灵活性。虽然不完全开源,但这种方式可能有助于OpenAI在保持技术领先的同时,满足市场对更开放AI发展的需求。