ZD至顶网软件频道消息: 试想,如果有一天人类与机器人对话,会使用什么方式?尤其是当人类指挥一个车型机器人行驶在道路上的时候,是用计算机语言不断给机器人输入代码,还是只是简单地使用人类最熟悉的交互方式——人类语言?答案显而易见。
语音交互成自动驾驶汽车刚需
与传统汽车不同,目前被热议的自动驾驶汽车从本质上看相当于智能化机器人,只是智能程度不同。作为智能程度最高的无人驾驶汽车,即完全自动驾驶汽车,必须具有看、听、说、思考、决策、行动的能力,在城市道路等复杂环境中,这些能力将直接决定无人车的使用体验,甚至是使用者的生命安全。
目前,全球有多家专注于研究自动驾驶技术的公司,百度的无人驾驶汽车项目起步于2013年,由百度研究院主导研发,其核心技术是百度大脑。到2016年7月底,百度自动驾驶技术专利的申请数量超过350项,包括无人车的智能感知与控制、智能检测与定位、高精地图、语音和图像处理、机器学习、无人车测试等国际领先技术。
在这些技术储备中,良好的人车交互是无人驾驶汽车与用户接触的第一步。而在复杂的行车环境中,其他的交互模式都不如语音交互来得自然、顺畅,符合人类使用习惯——用耳朵听来做信息的输入,用嘴巴说来做信息的输出。
事实上,语音交互并不仅局限于无人驾驶汽车,相关调查数据显示,语音交互逐渐在替代传统手动控制,成为智能行车的显著特征之一。
百度在智能汽车以及无人驾驶汽车主要交互方式方面主要采取的就是语音交互模式。百度会把最尖端的语音交互技术放到智慧汽车里去,而语音交互准确度和流畅度每提升一个百分点,都能给驾驶带来的非常明显的体验提升。
语音交互得益于百度人工智能的技术储备
语音交互技术可以让操控和管理汽车更便捷,这项技术已经成为自动驾驶汽车的刚需。对于无人驾驶汽车来说,实现语音交互,听得清是第一步,能听懂是第二步,能反馈是第三步。
“听得清”是实现人机交互体验的第一步,也就要考验语音识别的准确度。事实上,语音识别技术已经经过了多年发展,1970年以后,基于统计语言学方法,IBM将当时的语音识别率从70%提升到90%,语音识别规模也从几百个单词上升到几万个单词。1990年,基于对大量数据加以分析的统计方式来构建机器翻译系统的观点。最近几年,行业开始引进深层神经网络(DNN)的算法,DNN技术为语音识别领域带来了新的突破。
据了解,百度大脑的语音识别现在已经到了第二代,使用深度学习的技术进行语音识别。百度研发出了基于多层单向LSTM(长短时记忆模型)的汉语声韵母整体建模技术,并成功把连接时序分类(CTC)训练技术嵌入到语音识别传统技术建模框架中。该技术能够使机器的语音识别相对错误率降低15%,使汉语安静环境普通话语音识别的准确率接近97%。目前,百度语音识别的准确率能够达到97%,已经超过了人对语音的识别能力。
“听得懂”是第二步,也是人车语音交互中最重要的,只有听懂了人类语言的意图,无人驾驶汽车才能够执行对应的命令。
实现“听得懂”的核心是建立统计语言模型,而语言模型的有效性则依赖强大的计算能力和足够多的数据对该模型进行训练,语言模型越复杂则需要的计算量越大,而巨大、丰富的数据量是保证语言模型输出的准确性的重要基础。
作为一家以搜索业务起家的互联网技术公司,百度具有超大规模的神经网络、万亿级的参数、千亿样本和千亿特征训练;几年前百度便开始自建中国最大的GPU集群,包括数十万台服务器构成了“百度大脑”的实体,也确保了百度强大的计算能力;全网的网页数据、十多年来累积的搜索数据,以及百亿级的图像、视频、定位数据则是百度足以自傲的数据资产。基于此,百度从计算方法、计算能力以及数据能力三个方面,为语音交互技术“听得懂”用户指令奠定了基础。
而语音交互中的第三步——语音合成,也是百度语音技术的优势。基于大数据与深度学习技术优势,百度的新型情感语音合成系统能够让机器摆脱平铺直叙的发声,为用户带来更自然、更接近真人朗读的听觉体验。
目前,百度每天响应的语音合成的请求达到了2.5亿次。在情感语音合成技术上线后,用语音听小说的百度用户从过去平均每天听0.69小时,增长到现在的2.21小时。在刚刚结束的百度世界大会上,通过百度语音合成技术模拟出已逝巨星张国荣的声音,百度CEO李彦宏表示,未来每个人都可能拥有属于自己的语音合成模型。
百度自动驾驶事业部总经理王劲更直言,未来的汽车是由软件定义的,在传统汽车中只有10%的价值来自汽车本身的软件,而未来自动驾驶汽车的价值将有60%来自软件,可以说软件将是未来自动驾驶汽车的核心竞争力。
好文章,需要你的鼓励
Blackwell GPU的生产制造工作量达到Hopper GPU的两倍有余,但带来的收入仅增加至约1.7倍。
由AMD驱动的El Capitan超级计算机(现位于美国劳伦斯利弗莫尔国家实验室(LLNL))成为世界上速度最快的超级计算机。