10月26日,第九届中国智能产业高峰论坛(CIIS 2019)在西安开幕。本届峰会以“驱动未来,智能无界”为主题,海内外知名人工智能学者、企业代表等参与峰会,围绕人工智能技术创新和在各场景中的应用展开研讨。百度首席技术官、ACL/CAAI 会士王海峰出席峰会,并发表题为《AI大生产平台推动产业智能化》的演讲,全面介绍百度如何通过探索顶尖AI技术、打造AI大生产平台,助力产业智能化发展。
百度首席技术官、ACL/CAAI 会士 王海峰
王海峰介绍,人类经历的前三次工业革命中,驱动工业革命的核心技术都表现出很强的通用性,呈现出标准化、自动化、模块化的工业大生产特征。当前,我们正身处以AI为核心驱动力量的新一轮科技革命和产业革命浪潮之中,AI正将人类社会带入智能时代。
作为国内投入最早、技术最强、布局最完整的AI领军企业,百度持续研发领先的AI核心技术,并积极建设AI大生产平台,推动应用落地,促进产业智能化的发展。百度人工智能技术多年积累和产业实践的集大成——百度大脑,实现了AI能力与应用场景融合创新,已升级为“软硬一体AI大生产平台”。
在数据和算力的基础上,百度大脑“软硬一体AI大生产平台”以飞桨深度学习平台为基础技术底座,打通了人工智能产业化应用落地相关的全部流程,包括深度学习平台、通用AI能力、定制化训练平台、部署与集成,以及应用的技术解决方案,同时有完整的AI安全体系保障,实现了AI技术的标准化、自动化、模块化,推动产业智能化。
人工智能的发展离不开算力的支撑。百度大脑的AI计算架构,通过芯片、连接、系统和调度的协同设计和技术创新,提供百万TOPS的强大算力,并紧密结合百度飞桨训练与推理框架,提供面向算法优化的极致效率。
芯片是算力层面被关注的焦点。百度自研云端通用AI处理器——百度“昆仑”,针对语音、自然语言处理、图像等专门进行了优化,同等性能下将成本降低了10倍。此外,百度打造了远场语音交互芯片百度“鸿鹄”,“鸿鹄”芯片按照车规级标准打造,采用HiFi4自定义指令集,双核DSP核心,具备超大内存,包含TCM Cache SRAM,而且能耗极低,平均功耗仅100mW,可实现远场阵列信号的实时处理和高精度低误报语音唤醒,并集成离线语音识别功能,适配车载语音交互、智能家居等各种场景。
底层的芯片和上层的应用之间,还需要操作系统承接。在智能时代,深度学习框架向下对接硬件、芯片,向上承接各种业务模型、行业应用,起到承上启下的作用,是“智能时代的操作系统”。百度在多年深度学习和人工智能技术的积累和产业实践的基础上,打造了自主可控的飞桨产业级深度学习开源开放平台。飞桨平台核心技术领先,具备开发便捷的产业级深度学习框架、超大规模深度学习模型训练技术、多端多平台部署的高性能推理引擎、开源开放覆盖多领域的产业级模型库四大领先技术;飞桨平台集深度学习训练和预测框架、模型库、开发套件、工具组件和服务平台等为一体,是功能完备、全面开源开放的产业级深度学习平台。王海峰介绍,基于飞桨的EasyDL等服务平台,企业和开发者即使不懂深度学习,也可以训练出满足应用需求的模型,加速AI的应用落地。
以飞桨为基础技术底座,百度大脑的AI核心技术持续取得创新突破,保持世界领先水平。
语音技术领域,百度大脑的流式多级截断注意力模型(SMLTA)使识别准确率提升15%-20%。王海峰现场展示了基于SMLTA中英文混合识别能力,这一能力目前已在的百度输入法上大规模应用;风格迁移的语音合成技术把声音中的音色、风格、情感等不同元素解耦分离,独立组合,灵活控制合成的声音,只需录制20句话,就可以制作一个人的专属声音。基于此技术,百度上线了全球首个地图语音定制功能,为用户带来了前所未有的个性化体验。
在视觉技术方面,基于图像技术、人脸人体技术和视频分析技术,百度已经形成适用于不同应用场景的技术矩阵,如OCR文字识别、车辆识别、物体识别、风格转化,以及人脸检测、人脸对比、驾驶行为检测、人流量统计等,在机械制造、金融、医疗、教育等领域得到广泛的应用。而通过3D和AR的手段,已经实现人脸、手势、环境、肢体多维度的技术突破,可用于一体化人机交互等创新应用。
综合应用语音和视觉技术,机器可以自动合成虚拟形象。百度大脑的虚拟形象合成技术,首先对语音信号和视频信号进行识别与理解,再通过唇动生成,以及语音、面部和肢体的合成,合成一个虚拟形象。
在语言与知识技术方面,百度建立了完整的、包含知识图谱、语言理解、语言生成等在内的语言和知识技术布局,全面支持搜索、问答、对话等百度产品,同时开放赋能,支持各行业的创新应用。百度构建了世界上最大的多元异构知识图谱,在能够满足90%用户需求的实体图谱的基础上,针对不同的应用场景和知识形态建立起关注点图谱、行业知识图谱、POI图谱、事件图谱等多种知识图谱。
自然语言处理技术也在持续创新突破。百度结合知识和语义理解打造的可持续学习的知识增强语义理解框架ERNIE,通过建模海量数据中的实体概念等先验知识,学习真实世界的语义关系。这种融合知识的语义建模大幅增强了模型的语义表示能力,在共计16个中英文自然语言处理任务上效果超越了谷歌BERT和XLNet;在机器同声传译方面,百度首创感知上下文的机器同传模型,可以实现端到端实时同声传译,翻译准确率和时延与人类水平相当。百度构建的面向任务的理解与交互技术,现在已经积累了6.8万个定制技能、累计交互570亿次,在车载交互、地图导航、智能音箱、政务咨询等诸多场景中得到广泛应用。
随着AI技术的产业化应用不断深入,AI安全也受到越来越多的重视。百度大脑打造了完整的AI安全体系,从基础的开源技术矩阵、开放行业解决方案的平台,到与学术界、企业、政府、机构等多层面的开放协作,为AI技术的产业应用保驾护航。
以百度大脑为核心,以飞桨为基础底座,依托百度智能云,百度大脑AI大生产平台为各行各业的智能化转型升级提供了强有力支撑。例如,百度联合浦发银行推出了金融领域首个“数字”员工小浦,凭借专业的金融知识、对用户需求的深刻理解,为客户带来全新的服务;百度的AI质检技术应用于工厂的质检车间,帮助人员成本节省90%,占地面积减少80%,将漏检率从0.5%-1%降低到0.1%以内;为重庆气象局打造的智能预报预测系统,可以覆盖短临、短期和气候预测,大幅提升气候预报的准确率、缩短气象预警信息的发布时间。
目前,百度大脑AI大生产平台已开放216项核心AI能力,日调用量突破1万亿次,开发者超过150万,企业用户发布模型超过16.9万个。
在峰会活动中,王海峰还参加了以“人工智能如何打破大规模产业化的瓶颈”为主题的尖峰对话。他以翻译为例,介绍了人工智能的发展历程,人工智能在当下科技变革和产业革命过程中的重要作用,以及百度在推动产业智能化面取得的成就。
谈及人工智能的未来,王海峰表示,人工智能已经具备工业大生产特征,将会开始广泛的大规模应用,整个产业乃至整个社会都将从中受益。
好文章,需要你的鼓励
全新搜索方式出现,字节发布宽度优先搜索基准WideSearch,垫底的竟是DeepSeek
阿里巴巴团队推出DeepPHY,这是首个专门评估AI视觉语言模型物理推理能力的综合平台。通过六个不同难度的物理环境测试,研究发现即使最先进的AI模型在物理推理任务中表现也远低于人类,成功率普遍不足30%。更关键的是,AI模型虽能准确描述物理现象,却无法将描述性知识转化为有效控制行为,暴露了当前AI技术在动态物理环境中的根本缺陷。
GitHub CEO声称AI将承担所有编程工作,但现实中AI编程工具实际上降低了程序员的生产效率。回顾编程语言发展史,从Grace Hopper的高级语言到Java等技术,每次重大突破都曾因资源限制和固有思维遭到质疑,但最终都证明了抽象化的价值。当前AI编程工具面临命名误导、过度炒作和资源限制三重困扰,但随着技术进步,AI将有助于消除思想与结果之间的障碍。
AgiBot团队联合新加坡国立大学等机构开发出Genie Envisioner机器人操作统一平台,首次将视频生成技术应用于机器人控制。该系统通过100万个操作视频学习,让机器人能够预测行动结果并制定策略,在多个复杂任务上表现优异,仅需1小时数据即可适应新平台,为通用机器人智能开辟全新路径。