ZD至顶网软件频道消息: “随着阿里商业人工智能引擎“电商大脑”的不断进化,也许在不久的将来,一位高尔夫玩家在淘宝下单,就能够获得根据自己的体型、习惯等定制的专属球杆。智能球杆所沉淀的用户使用数据,又能够帮助工厂不断改善生产制造,同时还能帮助高尔夫教练更好地提供训练。” 阿里巴巴集团CTO张建锋在云栖大会第二天,对马云提出“五个新”当中的新零售、新制造和新技术进行了深度解读。
他认为计算能力的提升将加速世界的智能化进程,阿里将持续构建商业基础设施,以消费者需求为起点,反向推动各行各业步入智能化制造、智能化产品和智能化服务。
“网上的信息与现实信息对比可能还不足万分之一,大量的信息没有被数字化,”张建锋开场时指出,“随着数据处理能力的提升,整个世界一定会被数字化,数字化之后这个世界才更有机会被智能化。”
张建锋表示,数字化会沿着两个纬度发展,一是通过计算机视觉等技术不停地进行聚类,比如利用通过支付宝的扫脸识别就能确定实人身份,通过手机淘宝的拍立淘就可以了解商品详情;二是不断通过前沿技术寻找新的观察角度,例如VR/AR技术营造的虚拟现实的世界;更多纬度的数据加上更多角度的观察,能够激发前所未有的想象力。
当浩瀚的数字化信息能够联网在线,在万物互联网的新世界中,所有东西都可能有感知、变智能,想象一下电表、冰箱、心电图监测仪、数控车床等等设备的信息都能数字化并联网,从城市管理到个人生活,都会迎来翻天覆地的变化。云栖大会前一天发布的杭州城市数据大脑,正是用数据和人工智能进行社会管理的前瞻性实践。
从智能化制造,到智能化商品,再到智能化服务的制造三部曲,生动地描绘了阿里生态所蕴含的数据智能潜力。这一系列的场景在追求标准化的工业生产时代很难想象,但随着互联网成为基础设施、计算能力呈几何数爆发以及所有的线下信息孤岛被打破,计算机人工智能将有能力支撑这一复杂的系统,而这正是阿里未来30年的技术布局重点。
好文章,需要你的鼓励
这篇研究论文介绍了"Speechless",一种创新方法,可以在不使用实际语音数据的情况下训练语音指令模型,特别适用于越南语等低资源语言。研究团队通过将文本指令转换为语义表示,绕过了对高质量文本转语音(TTS)系统的依赖。该方法分三个阶段:首先训练量化器将语音转为语义标记;然后训练Speechless模型将文本转为这些标记;最后用生成的合成数据微调大型语言模型。实验表明,该方法在越南语ASR任务中表现出色,为低资源语言的语音助手开发提供了经济高效的解决方案。
《Transformer Copilot》论文提出了一种革命性的大语言模型微调框架,通过系统记录和利用模型训练过程中的"错误日志"来提升推理性能。研究团队受人类学习者记录和反思错误的启发,设计了一个"副驾驶"模型来辅助原始"驾驶员"模型,通过学习错误模式并在推理时校正输出。这一方法在12个基准测试上使模型性能提升高达34.5%,同时保持计算开销最小,展现了强大的可扩展性和可迁移性,为大语言模型的优化提供了全新思路。
德克萨斯大学Austin分校的研究团队提出了RIPT-VLA,一种创新的视觉-语言-动作模型后训练范式。该方法通过让AI模型与环境互动并仅接收简单的成功/失败反馈来学习,无需复杂的奖励函数或价值模型。实验证明,RIPT-VLA能显著提升现有模型性能,在轻量级QueST模型上平均提升21.2%,将大型OpenVLA-OFT模型推至97.5%的前所未有成功率。最令人惊叹的是,仅用一个示范样本,它就能将几乎不可用的模型在15次迭代内从4%提升至97%的成功率,展现出卓越的数据效率和适应能力。
北京大学与华为诺亚方舟实验室研究团队共同开发了TIME基准,这是首个专为评估大语言模型在真实世界场景中的时间推理能力而设计的多层级基准。该研究提出了三个层级的时间推理框架,包含11个细粒度任务,并构建了涵盖38,522个问答对的数据集,针对知识密集型信息、快速变化的事件动态和社交互动中的复杂时间依赖性三大现实挑战。实验结果表明,即使是先进模型在构建时间线和理解复杂时间关系方面仍面临显著挑战,而测试时扩展技术可明显提升时间逻辑推理能力。