ZD至顶网软件频道消息: 第二届世界机器人大会10月25日在北京顺利闭幕,成果丰硕。虽然今年会址迁至偏僻的亦庄开发区,但领导的关怀、大咖演讲的精彩程度、国内外企业的参与热情以及观众们的跃跃欲试之心有增无减。
当前互联网时代已进入下半场,即进入人工智能时代。这从政府、国内外企业巨头、投资界、媒体等关注的焦点乃至大众的谈资便可略窥一斑。从大众涌入机器人餐厅的尝鲜到跃跃欲试的想要购买,普罗大众在本届展会上最突出的表现莫过于强烈的购买欲望和买不到的失望之情,以至于有参展商笑谈,2017年的世界机器人大会将会成为机器人的展销会。
买不到的原因很多,但绝对不是饥饿营销。当前机器人及智能硬件买不到既有主观原因,也有客观原因。主观原因大致可归纳为两点:一是价格太贵超出预期,买不起;二是功能“简单”无法满足想像,买不到合适的。后者恰恰大多是由当前人工智能及机器人制造技术的客观原因所致。
从硬件技术的角度来说,横亘在商用化之路上的绊脚石是传感器技术、动力装置的性价比以及硬件本体智能的相关算法,甚至连麦克风阵列都因声学设计技术的限制而成为当前机器人及智能设备的掣肘。大家可能注意到,每次展会现场的噪声干扰十分严重,远程识别技术解决了安静环境下远距离会话的需求,在展会现场却成为无法正常工作的弊端。我们相信不久会有相应的解决方案解决这个难以两全的问题,我们看到一个展位上的灵聚机器人小灵正通过一个手持大麦克风与人正常交互,这似乎成了眼下最无奈却又最便捷实用的方案。这或许正应验了那句话:想像很丰满、现实很骨感。
人工智能的算法方面,国外一直处于领先地位,不过这一现象目前开始好转,这得得益于国内众多企业的投入和努力。除了例如百度、阿里巴巴、讯飞等大企业之外,也有例如图灵机器人、思必驰、云之声和灵聚这样一批批后起之秀。一些不同行业的企业例如今日头条、世纪佳缘等也从不同的角度切入人工智能技术,在推动人工智能技术的应用方面做着有益的尝试。
就像民企的骄傲华为悄悄的干掉思科、“不经意间”手机紧追苹果那样,国内的企业正在悄悄地成为全球人工智能技术的弄潮儿,在人工智能技术商用化方面更是处于领先水平。软银机器人NAO替代原生Nuance的商用化解决方案、深圳机场上岗的我国首个安保机器人小安、本届世界机器人大会上大出风头的康力优蓝的机器人大优、深圳双创周开幕式所用神州云海机器人艾娃,这些产品的共性是都采用了一家并不太出名的公司广州灵聚科技的灵聚人工大脑。广东的企业正在一如既往的低调实干,悄悄地追赶和领军。
与硬件方面“一个螺丝钉都可能导致产品跳票”的坑相比,软件和算法方面的坑更多体现在思想方面。围棋对弈上大败人类的AlphaGo所用的算法并不是秘密,各种神经网络算法、大数据处理技术都不是秘密,但问题是每一种算法都不是全能的,需要找到合适的思路和方法将多个算法协同起来工作,这正是人工智能技术商用化目前所面临的最大挑战——多学科跨领域知识的融合与创新能力。人工智能将是东方宏观哲学思想与西方微观哲学思想融合的产物,这或许是除了汉语言鸿沟和市场之外,中国可以在人工智能技术商用化方面优势突显的思想基础吧。
拥有五千多年文明的我们,曾经错过了蒸汽机驱动的第一次工业革命、流水线作业和电力使用引发的第二次工业革命,勉强赶上了由半导体、计算机和互联网的发明及应用催生的第三次工业革命,这一次让我们拥抱和引领以智能化和信息化为核心的第四次工业革命吧。2017年世界机器人大会让我们继续见证。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。
这项由中国人民大学高瓴人工智能学院研究团队发表的研究解决了大语言模型评判中的自我偏好问题。研究提出了DBG分数,通过比较模型给自身回答的分数与黄金判断的差异来测量偏好度,有效分离了回答质量与自我偏好偏差。实验发现,预训练和后训练模型都存在自我偏好,但大模型比小模型偏好度更低;调整回答风格和使用相同数据训练不同模型可减轻偏好。研究还从注意力分析角度揭示了自我偏好的潜在机制,为提高AI评判客观性提供了重要指导。
这篇研究提出了DenseDPO,一种改进视频生成模型的新方法,通过三大创新解决了传统方法中的"静态偏好"问题:使用结构相似的视频对进行比较,采集细粒度的时序偏好标注,并利用现有视觉语言模型自动标注。实验表明,DenseDPO不仅保留了视频的动态性,还在视觉质量方面与传统方法相当,同时大大提高了数据效率。这项技术有望推动AI生成更加自然、动态的视频内容。