清晨6点多的北京,天还未亮。在百度大厦的外围,就有十辆无人车开始了“夜跑”。
而指挥这一波操作的,是远在大洋彼岸的拉斯维加斯百度世界大会美国场现场。
百度集团总裁兼COO陆奇说,这就AI领域的“中国速度”。
▲ 百度集团总裁兼COO陆奇
发布迄今最强的Apollo 2.0版本
在11月16日北京举办的百度世界大会上,百度就宣布了要在2018年与金龙客车合作量产无人客车,在2020年与奇瑞合作实现无人驾驶汽车的量产。而这背后搭载的都是百度的自动驾驶平台Apollo。
Apollo平台于去年4月19日首次面世,是一套完整的软硬件和服务系统,包括车辆平台、硬件平台、软件平台、云端数据服务等。今天,百度在拉斯维加斯重点推出了Apollo的2.0版本,并且号称是迄今为止的“最强版本”。
Apollo 2.0首次开放了安全服务,进一步强化了其自定位、感知、规划决策和云端仿真等能力。能够让自动驾驶汽车实现简单城市道路自动驾驶,点亮了包括云端服务、软件平台、参考硬件平台以及参考车辆平台在内的四大模块。
而此前的1.0和1.5版本,则只是分别可以让车辆实现封闭场景的循迹形式和单一车道的自动驾驶功能。
据百度Apollo平台研发负责人王京傲介绍,接下来Apollo将全面支持包括NVIDIA、Intel、NXP、Renesas在内的四大主流计算平台,推出更低成本的传感器方案,支持小型巴士、SUV、卡车等更多的参考车型,以及提供全球更大范围的高精地图服务。
▲ 百度Apollo平台研发负责人王京傲
自7月份开放以来,Apollo开放平台受到超过7000个开发者的支持,生态合作伙伴规模突破了90家。目前,已经拥有16.5万行代码,并且保持着每季度新增6.5万行代码的快速迭代效率。
而正是得益于大量开发者的代码贡献和数据的反馈,2.0版本的自定位、感知、规划决策和云端仿真等能力才不断得以增强。例如其定位能力在峡谷与隧道等不良环境下仍已经能够实现5—10厘米的精度;感知模块最远探测距离达到了300英尺(约91.4米)等等。
在发布会现场,王京傲还展示了可量产的自动驾驶产品Apollo Pilot与奇瑞、金龙以及综合运输服务商Access LA等合作伙伴的落地应用成果,涵盖了乘用车、公共巴士和辅助客运服务等多种场景。
此外,在国际化战略上,Apollo将首个海外项目落地于新加坡,与智能出行公司AMI成立合资公司,在新加坡和东南亚推广无人驾驶技术的商业化,并参与当地的智能交通建设,服务于其城市管理和公众生活。
为了推广和普及自动驾驶技术,培养相关人才,百度还宣布与硅谷前沿技术在线学习平台优达学城(Udacity)联合推出面向全球的Apollo自动驾驶在线课程。同时,百度总裁张亚勤还在会上表示,百度将在全球成立多个Apollo实验室,以百度位于北、上、深、硅谷、西雅图的技术中心为起点,继续在全球范围内招募自动驾驶人才。
▲ 百度总裁张亚勤
当然,自动驾驶并不是百度AI的全部。
在会上,百度还发布了三款搭载百度语音开放平台DuerOS 2.0的智能硬件——小鱼在家VS1智能视频音箱、Sengled生迪智能音箱灯和popIn Aladdin智能投影吸顶灯。
百度度秘事业部总经理景鲲在会上介绍,DuerOS开放平台发布6个月以来,已经新增了130余家合作伙伴、落地硬件解决方案超过20个、每月新增5款以上搭载DuerOS的设备。
▲ 百度度秘事业部总经理景鲲
目前,DuerOS已与华为、Vivo、小米、高通、ARM、TCL、海尔、美的、哈曼、小天才等众多知名企业达成合作,将DuerOS的对话能力广泛应用到手机、电视、音箱等智能家居、智能穿戴和车载场景中。
百度是最早开始做AI研发的公司之一,现如今,推动百度核心业务发展的也正是AI的能力。无论是自动驾驶、语音平台,其背后都是百度真真切切的AI技术能力的支持。
如陆奇所说,“今后,百度将是一家AI公司。”而我们也的确希望,在人工智能这样一个狂潮中,能够看到一个“不一样的百度”。
好文章,需要你的鼓励
这篇研究论文介绍了"Speechless",一种创新方法,可以在不使用实际语音数据的情况下训练语音指令模型,特别适用于越南语等低资源语言。研究团队通过将文本指令转换为语义表示,绕过了对高质量文本转语音(TTS)系统的依赖。该方法分三个阶段:首先训练量化器将语音转为语义标记;然后训练Speechless模型将文本转为这些标记;最后用生成的合成数据微调大型语言模型。实验表明,该方法在越南语ASR任务中表现出色,为低资源语言的语音助手开发提供了经济高效的解决方案。
《Transformer Copilot》论文提出了一种革命性的大语言模型微调框架,通过系统记录和利用模型训练过程中的"错误日志"来提升推理性能。研究团队受人类学习者记录和反思错误的启发,设计了一个"副驾驶"模型来辅助原始"驾驶员"模型,通过学习错误模式并在推理时校正输出。这一方法在12个基准测试上使模型性能提升高达34.5%,同时保持计算开销最小,展现了强大的可扩展性和可迁移性,为大语言模型的优化提供了全新思路。
德克萨斯大学Austin分校的研究团队提出了RIPT-VLA,一种创新的视觉-语言-动作模型后训练范式。该方法通过让AI模型与环境互动并仅接收简单的成功/失败反馈来学习,无需复杂的奖励函数或价值模型。实验证明,RIPT-VLA能显著提升现有模型性能,在轻量级QueST模型上平均提升21.2%,将大型OpenVLA-OFT模型推至97.5%的前所未有成功率。最令人惊叹的是,仅用一个示范样本,它就能将几乎不可用的模型在15次迭代内从4%提升至97%的成功率,展现出卓越的数据效率和适应能力。
北京大学与华为诺亚方舟实验室研究团队共同开发了TIME基准,这是首个专为评估大语言模型在真实世界场景中的时间推理能力而设计的多层级基准。该研究提出了三个层级的时间推理框架,包含11个细粒度任务,并构建了涵盖38,522个问答对的数据集,针对知识密集型信息、快速变化的事件动态和社交互动中的复杂时间依赖性三大现实挑战。实验结果表明,即使是先进模型在构建时间线和理解复杂时间关系方面仍面临显著挑战,而测试时扩展技术可明显提升时间逻辑推理能力。