至顶网软件频道消息: 5月21日,2018微软人工智能大会(Microsoft AI Innovate)正式开幕,在AI、语音识别、图像识别等新兴技术不断升温的今天,微软再次为我们带来了一场前所未有的人工智能盛宴,在大会现场,微软全球资深技术院士,微软云与人工智能事业部黄学东在主题演讲中,阐述了27年前微软研究院成立之初的愿景:让电脑的未来能看会想、能听会讲,并且能够理解人类。现在很多这样的现实其实已经在中国发生了,比如微软中国的研发团队在研发微软小冰,并赋予其“眼观六路、耳听八方”的“全武功”。
微软全球资深技术院士,微软云与人工智能事业部 黄学东博士
黄学东:大家好,在人类进化的长河中,语音和语言起了决定性的作用,在人工智能进化的过程中,语音和语言也会起到同样的作用。今天我想给大家分享一下微软公司和众多同仁在人工智能进化中所做的不懈地努力。大家可以看出来,今天语音识别可以媲美人的水平,但是这些都是在近场和一到两个人会话的情况下达到的。如果你是远场,或者有很多人讲话,就是所谓的鸡尾酒会效应,由于酒太多,计算机也会醉,所以目前人工智能和人的差别还是蛮远的。
微软在不断地刷新人工智能的历史纪录,今年在人类的历史上第一次达到了中文、英文翻译超过了专业人士的水平。大家可以看这个表,这是靠人工盲测,就像教授给学生打分的情况下做出的成绩单,在微软最新的系统里面,达到了超过专业人士的水平,这比众包第三方的翻译水平高出了很多。当然,跟现有的产品相比,也是表现的非常出色和优秀。
微软有那么多领先的技术,当然应该服务于中国的客户,中国移动是世界上最大的电信营运商,拥有9亿的用户,微软今天非常高兴地向大家宣布,我们与世界上最大的语音数据合作伙伴完成了学术到产业的落地,微软语音识别技术能为中国移动的呼叫中心提供非常一流的服务。
除了语音识别,微软还会与中国移动继续在机器翻译等其他领域进行更深入的合作,形成微软人工智能技术落地中国市场的旗舰产品。黄学东分享到,微软最近推出的全新现代化的语音和翻译新产品,包括统一的语音解决方案。我在微软工作了将近25年,包括语音API都有很多不同的版本,今天微软有一款统一的讲话版本。同时,像计算机视觉一样,微软提供了一系列量身定制的功能,不仅仅是语音识别,还包括了唤醒式量身定制,包括了机器翻译的量身定制,还包括了语音合成的量身定制。当然,语音识别就像人工智能的云和边缘一样也需要边缘和云一起优化,微软提供了全球领先的麦克风阵列开发系统,代号PMA,就是普林斯顿麦克风阵列解决方案,根据评测,确立为世界一流的麦克风阵列系统。
如何量身定制的语音合成
怎样才能做到量身定制的语音合成?黄学东表示,大家现在知道跟各种智能音箱交互时,如果在陪伴小孩的时候能用妈妈的声音来讲故事,那该多么美妙;或者你跟音箱对话的时候,总是你的情人在跟你回答。只需要上传半个小时的声音样本,就可以量身定制美妙的声音;如果能上传3个小时的声音样本,那质量会有一个完美的提升;如果跟您与情人有10个小时的声音上传,那么,就可以制造一个非常甜美的声音出来。所以,微软提供了量身定制的各种服务,为了让人工智能落地,我们做出了不懈的努力。
微软的人工智能云和端离不开麦克风阵列,微软的麦克风阵列SDK是微软和中国的合作伙伴Roobo一起推出的。这个阵列能大大提高远场语音识别的能力。大家知道《封神演义》里面有一个很有名的故事叫“耳听八方”,靠微软这样的麦克风阵列就可以实现耳听八方的功能,可以做到八面玲珑。当然,光有这些工具,但没有落地还是不行,今天特地邀请了香蕉出行合伙人兼首席技术官于亮先生同台演示一下微软人工智能翻译器是如何落地中国的?有请于亮。
为会议系统提供数字转型
微软的黑科技不仅仅是帮助像中国移动和小米生态系统这样的公司,让人工智能在中国落地。除此之外,微软还有大量的黑科技。今天要给大家演示的是一款全球首创的AI人工智能会议系统,大家大概知道谷歌在宣传全双工语音通话,无非能让两个人自由的讲话。黄学东强调称,微软这个系统不仅仅是能支持两个人讲话,还能支持三个人讲话、四个人讲话、五个人讲话,是全三工、四工、五工——我开玩笑叫它“全武功”。它集成了微软全球领先的语音识别和语音计算机视觉系统,不仅仅是眼观六路、耳听八方,确实能为提高生产力的会议系统提供数字转型。
大家知道,任何公司最重要的决策都是在会议上做出的,但是讲完以后很多领导又不认账,无处可查。如果有微软的黑科技,有全球领先的人工智能会议系统,所有的语音内容都可以转录下来,会后可以变成像电子邮件一样有证可查。有了微软的黑科技,今天的会议可不是我们所认为的传统会议,因为这不是全三工,而是全五工,鸡尾酒会效应基本上在这个会议上是个特例,微软的语音识别系统可以同时支持很多人同时对话,知道谁讲了什么,谁说了什么,会议开完之后还可以去搜索,把所有的会议变成像电子邮件一样的内容。
黄学东最后表示,“这些功能是我们所有人很多年以前就梦想拥有的,同时也是微软研究院建立之初的一个愿景:让计算机能听、能看、能说。今天这个愿景已经不是我们自己的愿景,就在当下,让我们耳听八方、眼观六路,谢谢大家。”
好文章,需要你的鼓励
高带宽闪存技术承诺提供超大容量,但面临极其复杂的工程挑战。该技术将多层NAND芯片堆叠,每层由数百个3D NAND单元层组成,可创造前所未有的存储容量。相比昂贵的HBM内存,HBF使用更便宜但速度较慢的闪存为GPU提供更多存储空间。技术复杂性体现在互连布线的困难,12层HBF堆叠将包含2866个存储层。由于需要英伟达等GPU厂商深度参与和行业标准制定,预计HBF距离商用还需两年以上时间。
阿里巴巴达摩院联合浙江大学、香港科技大学发布Inferix,这是专为世界模拟打造的下一代推理引擎。它采用块扩散技术,像搭积木般分段生成视频,既保证高质量又支持任意长度,克服了传统方法的局限。配套LV-Bench评测基准包含1000个长视频样本,建立了分钟级视频生成的评估标准,为游戏、教育、娱乐等领域的内容创作带来革命性突破。
戴尔第三季度营收270亿美元,同比增长11%,创历史新高,主要受AI服务器需求爆发式增长推动。AI服务器订单达123亿美元,全年订单总额300亿美元。基础设施解决方案集团营收141亿美元,增长24%,其中服务器和网络业务表现强劲。存储业务营收39.8亿美元,同比下降1%,但全闪存阵列产品实现双位数增长。公司预计第四季度营收315亿美元,全年AI服务器出货量约250亿美元。
Luma AI推出的终端速度匹配(TVM)是一种革命性的图像生成技术,能够在单次计算中生成高质量图像,突破了传统方法需要数十步采样的限制。该技术通过关注生成路径的"终点"而非"起点",实现了从噪声到图像的直接跳跃,在保证数学理论基础的同时大幅提升了生成效率,为实时AI应用开辟了新路径。