“小度小度,我要从三里屯的团结湖地铁站出发路过望京的家乐福然后再去南锣鼓巷最后到我家,我要红绿灯少的不堵车的最快的路线,你帮我规划一下路线吧。”
“你有本事再说一遍我就帮你导航”。
两个月前,百度地图语音助手小度被一位“丧心病狂”的网友“调戏”了,并且还把视频发到了网上。视频中,虽然小度最终没有给出合适的路线规划,但它的回复也可以说是非常机智了。
两个月后,在百度AI开发者大会现场,百度高级副总裁、AI技术平台体系(AIG)总负责人王海峰再次演示了一遍相同的指令。而小度给出的回答变成了:“提供一种规划路线,需要导航吗?”这回,小度不仅听懂了,还给出了正确反馈。
“小度是一个很努力的同学,经过这段时间的学习已经学会了如何回答这个复杂的问题。”王海峰说,“在这背后,除了地图本身的技术之外,实际上还有百度大脑语音识别和自然语言处理合成技术的支持。”
百度大脑是2016年李彦宏在百度世界大会上正式对外发布的超大规模神经网络,经过多年的技术升级和研发投入,目前已经成为百度在人工智能领域的“集大成者”。
百度的人工智能布局:18年的积累与投入
要谈百度的人工智能布局就要追溯到它成立之初。
18年前,百度作为搜索公司诞生。当时的搜索引擎还是一个基于统计学的技术,但随着互联网的快速发展,在千奇百怪的用户需求和海量数据处理要求下,搜索引擎变得越来越依赖人工智能和机器学习技术。
于是,2010年百度开始全面布局包括语音识别、自然语言处理、机器学习、知识图谱、视觉语义等在内的人工智能技术。并在两年后着手深度学习技术的研发,将其用在百度图像、语音等具体应用中。
鉴于深度学习技术在实际应用中的惊艳表现,2013年百度正式成立了深度学习研究院IDL(Institute of Deep Learning),诸多知名专家纷纷加入,为其人工智能技术的完善和提升不断加持。除了在国内,在美国硅谷离苹果公司不远的地方也设有百度深度学习实验室。基于此,百度在全球率先将深度学习技术应用于大规模线上搜索引擎,还基于深度神经网络上线了机器翻译系统。
就这样,经过了长达16年一步步的技术积累和投入,百度大脑在2016年正式在百度世界大会上推出。如今,它已经拥有万亿级的参数、千亿样本、千亿特征训练,甚至能模拟人脑的工作机制。从基础层、感知层到认知层和平台层,不仅能够对内提供完整的人工智能技术支持,同时,百度还在去年7月宣布对外开放了包括语音识别、理解与交互技术UNIT、人脸识别等核心AI能力,以及深度学习平台 PaddlePaddle。
两年来,从1.0版本的基础能力搭建到2.0形成了完整的技术体系,首次开放60多项AI核心能力,再到此次3.0版本的发布,百度大脑的能力仍在不断提升。
具体来说,百度大脑3.0的发布包含了技术升级、开放升级两大层面。技术层面,百度大脑3.0在业界首次提出“多模态深度语义理解”,并形成从芯片到深度学习框架、平台、生态的AI全栈技术布局;开放层面,百度AI开放平台持续升级,是最完整、最前沿、最开放、最具活力的AI技术平台。
据王海峰所说,截至百度AI开发者大会当天早上,他看到的百度AI能力开放的数字是117项。
百度大脑3.0:聚焦“多模态深度语义理解”
百度大脑3.0的核心是“多模态深度语义理解”,具体是指对文字、声音、图片、视频等多模态的数据和信息进行深层次多维度的语义理解,包括数据语义、知识语义、视觉语义、语音语义一体化和自然语言语义等多方面的语义理解技术。
换句话说,就是要能让机器听清、看清,从而深入理解语义背后的含义,深度理解真实世界,更好地支撑各种应用。而其中,百度地图语音助手就是语音语义一体化和自然语言处理技术结合最典型的应用场景之一。
王海峰介绍,如今百度高噪声环境Hand-free语音识别准确率已提升了10个百分点,语音语义一体化技术使得远场语音识别准确率提升了10个百分点;在语音合成方面,WaveNet+拼接的情感语音合成技术,使得流畅度和自然度也大幅提升。
此外,他还以对话理解和阅读理解为例,介绍了百度的自然语言理解技术。事实上,百度的对话理解技术已经积累多年,而百度大脑3.0版本中通过研发最新的深层注意力匹配模型,比已知的最好结果又提升了4.1%。在阅读理解技术上,百度大脑已经阅读了千亿量级的文章,相当于6万个中国国家图书馆的藏书,并由此积累了亿级实体、千亿事实的知识。
更有趣的是,借助视觉的语义化技术,百度大脑还被应用在了世界杯的视频解析场景中。大会现场,王海峰播放了一段世界杯球赛视频,视频中,百度大脑可以通过识别视频中的裁判、球、球门、球场线等,捕捉射门、进球、角球、换人等画面,完成机器人解说、精彩片段集锦剪辑、以及数据统计分析等等。
知识是机器理解世界的重要基础,为此,在多元语义知识方面,百度也构建了包含数亿实体、数千亿级事实的庞大知识图谱。除了基础的由实体、属性、关系构成的实体图谱,还针对不同的应用场景和知识形态,构建了关注点图谱、事件图谱、多媒体图谱、行业知识图谱等多种图谱。所有这些,都构成了百度大脑的基础。
“通过持续获取和积累知识,百度大脑的理解能力和智能水平还会不断升级,从而更好地服务于用户。”王海峰说。
PaddlePaddle3.0:各个版本和平台全面优化
必须强调的是,在百度大脑3.0“多模态深度语义理解”技术突破的背后,深度学习平台PaddlePaddle发挥了重要作用。大会上,王海峰正式公布了PaddlePaddle3.0,包括完整的核心框架,以及AI Studio、AutoDL、EasyDL等可以让开发者平等便捷获取AI能力的平台。
其中,PaddlePaddle3.0核心框架对服务器版本以及移动端版本进行了全面优化,可以灵活适用于更广泛的开发需求;AutoDL能更高效自动地搜索神经网络结构,开发者无需特殊硬件设备就可以快速得到高质量模型;EasyDL可以满足零算法基础训练业务定制模型,通过可视化的操作使得使用者无需懂深度学习也可以快速上手;AI studio具有云端集成、简单易用、运行高效和资源免费的特点,是集成“数据、算法、算力”的PaddlePaddle实训平台,可以一站满足使用者学习、技术进阶、学术研究需求。
此外,据王海峰介绍,作为本次大会发布亮点之一的AI芯片“昆仑”也将与PaddlePaddle深度学习框架深度结合,从而推动AI行业生态的快速发展。
可以看到,越来越多的行业在拥抱人工智能,在使用这些能力。
据了解,从去年11月份百度世界大会到现在,仅仅过了半年多的时间,百度AI平台上语音能力调用次数增长了94%,视觉能力的日调用量增长了416%,自然语言处理的日调用次数增长了180%。此外,视觉中的人脸识别技术,调用次数更是涨了近8倍。
“这些显著的增长也仅仅是开始。因为开源和开放,AI正在渗透到经济社会毛细血管中。”李彦宏在演讲中这样说。
而在这个过程中,百度正在扮演的是一个“授人以渔”的角色。它不仅正在通过AI开放平台让每个人平等地使用AI技术,与此同时还集众开发者之力持续为百度大脑的迭代和升级赋能。除此之外,借助百度AI生态伙伴“燎原计划”、AI加速器等方式,百度也在不断打造和布局自己的生态系统,从而为开发者释放更多价值,为产业升级带来了更多想象力。
好文章,需要你的鼓励
在2025年KubeCon/CloudNativeCon北美大会上,云原生开发社区正努力超越AI炒作,理性应对人工智能带来的风险与机遇。随着开发者和运营人员广泛使用AI工具构建AI驱动的应用功能,平台工程迎来复兴。CNCF推出Kubernetes AI认证合规程序,为AI工作负载在Kubernetes上的部署设定开放标准。会议展示了网络基础设施层优化、AI辅助开发安全性提升以及AI SRE改善可观测性工作流等创新成果。
香港大学研究团队提出LightReasoner框架,通过让小型"业余"模型与大型"专家"模型对比,识别关键推理步骤并转化为训练信号。该方法在数学推理任务上实现28.1%性能提升,同时将训练时间、样本需求和词元使用量分别减少90%、80%和99%,完全无需人工标注。研究颠覆了传统训练思路,证明通过模型间行为差异可以实现高效的自监督学习,为资源受限环境下的AI能力提升提供了新路径。
DeepL作为欧洲AI领域的代表企业,正将业务拓展至翻译之外,推出面向企业的AI代理DeepL Agent。CEO库蒂洛夫斯基认为,虽然在日常翻译场景面临更多竞争,但在关键业务级别的企业翻译需求中,DeepL凭借高精度、质量控制和合规性仍具优势。他对欧盟AI法案表示担忧,认为过度监管可能阻碍创新,使欧洲在全球AI竞争中落后。
马里兰大学研究团队开发了MONKEY适配器,一种无需额外训练的AI绘画控制技术。该方法通过"两步走"策略解决了个性化AI绘画中主体保真与背景控制难以兼得的问题:先让AI识别主体区域生成"透明胶片",再在第二次生成中让主体区域听从参考图片、背景区域听从文字描述。实验证明该方法在保持主体特征和响应文字要求两方面均表现出色,为AI绘画的精细化控制提供了新思路。