微软有望夺冠：在语音识别准确率方面处于领先原创

研究人员正在就如何让机器在各种不同的设定条件下识别人类语言而不懈努力，从实时交互到离线，再到预先录制的语音邮件皆在此列。作为其中的一类重要应用，离线转录甚至可用于政府监管工作。

而在这场机器学习的军备竞赛当中，微软或许在语音转录准确度方面略微领先于IBM。

今年三月，IBM公司研究人员表示，在预先录制的陌生人对于既定话题，诸如运动项目的英文电话交流中，单词识别错误率仅为5.5%。本周，他们在瑞典斯德哥尔摩举行的2017年INTERSPEECH会议上介绍并公布了此项研究的同行评审结果。

上周日，微软公司在其公布的一篇博客文章与技术白皮书中声称在同样的任务条件下，微软方案在这方面略有提升，已经将单词错误率降低为5.1%。

工作原理与IBM类似，其声学与语言建模的算法采用深度学习架构。微软方面表示去年其单词错误率已为5.9%，而这一切都归功于“采用可扩展性最优深度学习软件，微软Cognitive Toolkit 2.1（简称CNTK）以探索模型架构并优化模型的超参数。此外，微软在云计算基础设施方面的投资，特别是Azure GPU，有助于其通过培训模型与测试新想法以提升这方面的执行效率与速度表现。”

在荷兰蒂尔堡大学研究语言识别的计算机科学家Eric Postma在接受本报记者采访时表示，虽然这是“向前迈出的重要一步”，却“尚未成为一项突破”，因为该领域的目标在于达到人类认知级别——就如同能够在鸡尾酒派对中理解同时发出的不同言论，或是掌握更多日常所需常识。

微软公司承认在识别不同口音、语言风格以及语种方面仍有大量工作亟待完成，更不用说理解采集自拥挤房间中的模糊对话内容。

尽管IBM方面可能宣称在此次的数据组中，5.1%错误率已然属于人类认知级别，但Postma就此表示：“这只是种营销性结论，而非科学成果。”

专业从事语音识别并且曾经处理过相同数据组的剑桥大学信息工程师Phil Woodland在接受采访时表示，从20世纪90年代开始此类研究后，“错误率已经大幅度降低”（2004年在对RT-04电话谈话数据组进行理解时，IBM方案的语音识别错误率为15.2%）。

Woodland同时指出，除了识别陌生人之间的谈话外，IBM的新文章中还转录了家庭成员之间较为随意的谈话内容（错误率为10.3%）。相比之下，微软的论文只解决了相对而言“更容易”的问题，当陌生人之间交流时，由于言语更加正式，因此内容更容易理解。

Woodland还表示，由于该项研究结果会根据不同任务而变化，所以很难“确定”人类识别级别的指标。并且，微软算法可能在更难的数据组上表现更差，或者获得与IBM相似的结果。

对于微软算法是否可以应用于其他数据组还尚不明确。研究人员的算法将可能通过调试而专门用于测试电话通话，而不会转向立足媒体档案进行语音搜索或者实现广播数据转录。

来源：至顶网软件频道

0赞

好文章，需要你的鼓励

微软有望夺冠：在语音识别准确率方面处于领先 原创

来源：至顶网软件频道

2017

08/23

16:16

分享

点赞

Bookshop.org确认今年将推出Kobo电子书阅读器支持

WeWard新增"步行模式"：走够步数才能解锁应用

X将通过私信通知用户其互动帖子被社区笔记纠错

"慢社交"应用Roost：让消息像真鸟一样飞行

Truecaller与印度电信监管机构就反垃圾电话规则展开公开交锋

Block与46州达成4500万美元和解，涉Cash App欺诈纠纷

欧盟威胁对Meta开出罚款，剑指Facebook和Instagram上瘾性设计

Disney+考虑推出免费流媒体内容层级

HyperTexting：将开放网络变成类社交媒体信息流的新应用

TV Time关闭之际，创始人打造新追剧应用Bingers

Telegram短链域名t.me因制裁合规问题短暂下线后已恢复

Apple芯片现不可修复漏洞，或成iPhone越狱突破口

微软借助AI发现漏洞，单次发布破纪录的570个安全补丁

微软裁员背后的AI影响：你需要了解什么

微软修复《帝国时代II》高危漏洞，单月补丁数量创历史纪录

微软发布史上最大规模补丁日，同日曝出Windows零日漏洞

GitHub Copilot 推出交互式画布，助力 .NET 应用现代化升级

微软培训销售团队，刻意贬低OpenAI与Anthropic产品

微软Exchange Server本地版使用门槛再度提高

微软安全启动存在13年漏洞，始终未被察觉

微软 Defender 补丁存在缺陷，或导致硬盘空间被耗尽

微软押注自研AI模型，剑指生成式AI成本削减

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

微软有望夺冠：在语音识别准确率方面处于领先原创