ZD至顶网软件频道消息: 试想,如果有一天人类与机器人对话,会使用什么方式?尤其是当人类指挥一个车型机器人行驶在道路上的时候,是用计算机语言不断给机器人输入代码,还是只是简单地使用人类最熟悉的交互方式——人类语言?答案显而易见。
语音交互成自动驾驶汽车刚需
与传统汽车不同,目前被热议的自动驾驶汽车从本质上看相当于智能化机器人,只是智能程度不同。作为智能程度最高的无人驾驶汽车,即完全自动驾驶汽车,必须具有看、听、说、思考、决策、行动的能力,在城市道路等复杂环境中,这些能力将直接决定无人车的使用体验,甚至是使用者的生命安全。
目前,全球有多家专注于研究自动驾驶技术的公司,百度的无人驾驶汽车项目起步于2013年,由百度研究院主导研发,其核心技术是百度大脑。到2016年7月底,百度自动驾驶技术专利的申请数量超过350项,包括无人车的智能感知与控制、智能检测与定位、高精地图、语音和图像处理、机器学习、无人车测试等国际领先技术。
在这些技术储备中,良好的人车交互是无人驾驶汽车与用户接触的第一步。而在复杂的行车环境中,其他的交互模式都不如语音交互来得自然、顺畅,符合人类使用习惯——用耳朵听来做信息的输入,用嘴巴说来做信息的输出。
事实上,语音交互并不仅局限于无人驾驶汽车,相关调查数据显示,语音交互逐渐在替代传统手动控制,成为智能行车的显著特征之一。
百度在智能汽车以及无人驾驶汽车主要交互方式方面主要采取的就是语音交互模式。百度会把最尖端的语音交互技术放到智慧汽车里去,而语音交互准确度和流畅度每提升一个百分点,都能给驾驶带来的非常明显的体验提升。
语音交互得益于百度人工智能的技术储备
语音交互技术可以让操控和管理汽车更便捷,这项技术已经成为自动驾驶汽车的刚需。对于无人驾驶汽车来说,实现语音交互,听得清是第一步,能听懂是第二步,能反馈是第三步。
“听得清”是实现人机交互体验的第一步,也就要考验语音识别的准确度。事实上,语音识别技术已经经过了多年发展,1970年以后,基于统计语言学方法,IBM将当时的语音识别率从70%提升到90%,语音识别规模也从几百个单词上升到几万个单词。1990年,基于对大量数据加以分析的统计方式来构建机器翻译系统的观点。最近几年,行业开始引进深层神经网络(DNN)的算法,DNN技术为语音识别领域带来了新的突破。
据了解,百度大脑的语音识别现在已经到了第二代,使用深度学习的技术进行语音识别。百度研发出了基于多层单向LSTM(长短时记忆模型)的汉语声韵母整体建模技术,并成功把连接时序分类(CTC)训练技术嵌入到语音识别传统技术建模框架中。该技术能够使机器的语音识别相对错误率降低15%,使汉语安静环境普通话语音识别的准确率接近97%。目前,百度语音识别的准确率能够达到97%,已经超过了人对语音的识别能力。
“听得懂”是第二步,也是人车语音交互中最重要的,只有听懂了人类语言的意图,无人驾驶汽车才能够执行对应的命令。
实现“听得懂”的核心是建立统计语言模型,而语言模型的有效性则依赖强大的计算能力和足够多的数据对该模型进行训练,语言模型越复杂则需要的计算量越大,而巨大、丰富的数据量是保证语言模型输出的准确性的重要基础。
作为一家以搜索业务起家的互联网技术公司,百度具有超大规模的神经网络、万亿级的参数、千亿样本和千亿特征训练;几年前百度便开始自建中国最大的GPU集群,包括数十万台服务器构成了“百度大脑”的实体,也确保了百度强大的计算能力;全网的网页数据、十多年来累积的搜索数据,以及百亿级的图像、视频、定位数据则是百度足以自傲的数据资产。基于此,百度从计算方法、计算能力以及数据能力三个方面,为语音交互技术“听得懂”用户指令奠定了基础。
而语音交互中的第三步——语音合成,也是百度语音技术的优势。基于大数据与深度学习技术优势,百度的新型情感语音合成系统能够让机器摆脱平铺直叙的发声,为用户带来更自然、更接近真人朗读的听觉体验。
目前,百度每天响应的语音合成的请求达到了2.5亿次。在情感语音合成技术上线后,用语音听小说的百度用户从过去平均每天听0.69小时,增长到现在的2.21小时。在刚刚结束的百度世界大会上,通过百度语音合成技术模拟出已逝巨星张国荣的声音,百度CEO李彦宏表示,未来每个人都可能拥有属于自己的语音合成模型。
百度自动驾驶事业部总经理王劲更直言,未来的汽车是由软件定义的,在传统汽车中只有10%的价值来自汽车本身的软件,而未来自动驾驶汽车的价值将有60%来自软件,可以说软件将是未来自动驾驶汽车的核心竞争力。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。