“小度小度,我要从三里屯的团结湖地铁站出发路过望京的家乐福然后再去南锣鼓巷最后到我家,我要红绿灯少的不堵车的最快的路线,你帮我规划一下路线吧。”
“你有本事再说一遍我就帮你导航”。
两个月前,百度地图语音助手小度被一位“丧心病狂”的网友“调戏”了,并且还把视频发到了网上。视频中,虽然小度最终没有给出合适的路线规划,但它的回复也可以说是非常机智了。
两个月后,在百度AI开发者大会现场,百度高级副总裁、AI技术平台体系(AIG)总负责人王海峰再次演示了一遍相同的指令。而小度给出的回答变成了:“提供一种规划路线,需要导航吗?”这回,小度不仅听懂了,还给出了正确反馈。
“小度是一个很努力的同学,经过这段时间的学习已经学会了如何回答这个复杂的问题。”王海峰说,“在这背后,除了地图本身的技术之外,实际上还有百度大脑语音识别和自然语言处理合成技术的支持。”
百度大脑是2016年李彦宏在百度世界大会上正式对外发布的超大规模神经网络,经过多年的技术升级和研发投入,目前已经成为百度在人工智能领域的“集大成者”。
百度的人工智能布局:18年的积累与投入
要谈百度的人工智能布局就要追溯到它成立之初。
18年前,百度作为搜索公司诞生。当时的搜索引擎还是一个基于统计学的技术,但随着互联网的快速发展,在千奇百怪的用户需求和海量数据处理要求下,搜索引擎变得越来越依赖人工智能和机器学习技术。
于是,2010年百度开始全面布局包括语音识别、自然语言处理、机器学习、知识图谱、视觉语义等在内的人工智能技术。并在两年后着手深度学习技术的研发,将其用在百度图像、语音等具体应用中。
鉴于深度学习技术在实际应用中的惊艳表现,2013年百度正式成立了深度学习研究院IDL(Institute of Deep Learning),诸多知名专家纷纷加入,为其人工智能技术的完善和提升不断加持。除了在国内,在美国硅谷离苹果公司不远的地方也设有百度深度学习实验室。基于此,百度在全球率先将深度学习技术应用于大规模线上搜索引擎,还基于深度神经网络上线了机器翻译系统。
就这样,经过了长达16年一步步的技术积累和投入,百度大脑在2016年正式在百度世界大会上推出。如今,它已经拥有万亿级的参数、千亿样本、千亿特征训练,甚至能模拟人脑的工作机制。从基础层、感知层到认知层和平台层,不仅能够对内提供完整的人工智能技术支持,同时,百度还在去年7月宣布对外开放了包括语音识别、理解与交互技术UNIT、人脸识别等核心AI能力,以及深度学习平台 PaddlePaddle。
两年来,从1.0版本的基础能力搭建到2.0形成了完整的技术体系,首次开放60多项AI核心能力,再到此次3.0版本的发布,百度大脑的能力仍在不断提升。
具体来说,百度大脑3.0的发布包含了技术升级、开放升级两大层面。技术层面,百度大脑3.0在业界首次提出“多模态深度语义理解”,并形成从芯片到深度学习框架、平台、生态的AI全栈技术布局;开放层面,百度AI开放平台持续升级,是最完整、最前沿、最开放、最具活力的AI技术平台。
据王海峰所说,截至百度AI开发者大会当天早上,他看到的百度AI能力开放的数字是117项。
百度大脑3.0:聚焦“多模态深度语义理解”
百度大脑3.0的核心是“多模态深度语义理解”,具体是指对文字、声音、图片、视频等多模态的数据和信息进行深层次多维度的语义理解,包括数据语义、知识语义、视觉语义、语音语义一体化和自然语言语义等多方面的语义理解技术。
换句话说,就是要能让机器听清、看清,从而深入理解语义背后的含义,深度理解真实世界,更好地支撑各种应用。而其中,百度地图语音助手就是语音语义一体化和自然语言处理技术结合最典型的应用场景之一。
王海峰介绍,如今百度高噪声环境Hand-free语音识别准确率已提升了10个百分点,语音语义一体化技术使得远场语音识别准确率提升了10个百分点;在语音合成方面,WaveNet+拼接的情感语音合成技术,使得流畅度和自然度也大幅提升。
此外,他还以对话理解和阅读理解为例,介绍了百度的自然语言理解技术。事实上,百度的对话理解技术已经积累多年,而百度大脑3.0版本中通过研发最新的深层注意力匹配模型,比已知的最好结果又提升了4.1%。在阅读理解技术上,百度大脑已经阅读了千亿量级的文章,相当于6万个中国国家图书馆的藏书,并由此积累了亿级实体、千亿事实的知识。
更有趣的是,借助视觉的语义化技术,百度大脑还被应用在了世界杯的视频解析场景中。大会现场,王海峰播放了一段世界杯球赛视频,视频中,百度大脑可以通过识别视频中的裁判、球、球门、球场线等,捕捉射门、进球、角球、换人等画面,完成机器人解说、精彩片段集锦剪辑、以及数据统计分析等等。
知识是机器理解世界的重要基础,为此,在多元语义知识方面,百度也构建了包含数亿实体、数千亿级事实的庞大知识图谱。除了基础的由实体、属性、关系构成的实体图谱,还针对不同的应用场景和知识形态,构建了关注点图谱、事件图谱、多媒体图谱、行业知识图谱等多种图谱。所有这些,都构成了百度大脑的基础。
“通过持续获取和积累知识,百度大脑的理解能力和智能水平还会不断升级,从而更好地服务于用户。”王海峰说。
PaddlePaddle3.0:各个版本和平台全面优化
必须强调的是,在百度大脑3.0“多模态深度语义理解”技术突破的背后,深度学习平台PaddlePaddle发挥了重要作用。大会上,王海峰正式公布了PaddlePaddle3.0,包括完整的核心框架,以及AI Studio、AutoDL、EasyDL等可以让开发者平等便捷获取AI能力的平台。
其中,PaddlePaddle3.0核心框架对服务器版本以及移动端版本进行了全面优化,可以灵活适用于更广泛的开发需求;AutoDL能更高效自动地搜索神经网络结构,开发者无需特殊硬件设备就可以快速得到高质量模型;EasyDL可以满足零算法基础训练业务定制模型,通过可视化的操作使得使用者无需懂深度学习也可以快速上手;AI studio具有云端集成、简单易用、运行高效和资源免费的特点,是集成“数据、算法、算力”的PaddlePaddle实训平台,可以一站满足使用者学习、技术进阶、学术研究需求。
此外,据王海峰介绍,作为本次大会发布亮点之一的AI芯片“昆仑”也将与PaddlePaddle深度学习框架深度结合,从而推动AI行业生态的快速发展。
可以看到,越来越多的行业在拥抱人工智能,在使用这些能力。
据了解,从去年11月份百度世界大会到现在,仅仅过了半年多的时间,百度AI平台上语音能力调用次数增长了94%,视觉能力的日调用量增长了416%,自然语言处理的日调用次数增长了180%。此外,视觉中的人脸识别技术,调用次数更是涨了近8倍。
“这些显著的增长也仅仅是开始。因为开源和开放,AI正在渗透到经济社会毛细血管中。”李彦宏在演讲中这样说。
而在这个过程中,百度正在扮演的是一个“授人以渔”的角色。它不仅正在通过AI开放平台让每个人平等地使用AI技术,与此同时还集众开发者之力持续为百度大脑的迭代和升级赋能。除此之外,借助百度AI生态伙伴“燎原计划”、AI加速器等方式,百度也在不断打造和布局自己的生态系统,从而为开发者释放更多价值,为产业升级带来了更多想象力。
好文章,需要你的鼓励
谷歌研究团队推出VaultGemma,这是其首个采用差分隐私技术的大语言模型。该模型基于Gemma 2构建,拥有10亿参数,通过在训练阶段引入校准噪声来防止模型"记忆"敏感用户数据。研究团队建立了差分隐私缩放定律,平衡计算预算、隐私预算和数据预算。尽管添加差分隐私会影响准确性,但VaultGemma在性能上与同规模非私有模型相当。该模型现已在Hugging Face和Kaggle平台开放下载。
香港中文大学联合上海AI实验室推出Dispider系统,首次实现AI视频"边看边聊"能力。通过创新的三分式架构设计,将感知、决策、反应功能独立分离,让AI能像人类一样在观看视频过程中进行实时交流,在StreamingBench测试中显著超越现有系统,为教育、娱乐、医疗、安防等领域的视频AI应用开启新可能。
英国宽带服务商Olilo正式推出多千兆宽带服务,专门面向技术人员、工程师、系统管理员和家庭实验室爱好者。该公司自建Layer 2网络基础设施,提供对称多千兆宽带,支持静态IPv4地址和原生IPv6。Olilo与伦敦三大互联网交换中心建立对等连接,在英国对等网络中排名第24位。服务经过150多名技术用户的付费封闭测试,并通过Discord社区持续收集用户反馈优化服务。
Atla公司发布Selene Mini,这是一个仅有80亿参数的AI评估模型,却在11个基准测试中全面超越GPT-4o-mini。通过精心的数据筛选和创新训练策略,该模型不仅能准确评判文本质量,还能在医疗、金融等专业领域表现出色。研究团队将模型完全开源,为AI评估技术的普及和发展做出贡献。