至顶网软件频道消息:阿里巴巴近日一项在国际顶级学术会议上的AI语音技术演示,引起业界轰动。权威科学杂志《麻省理工科技评论》认为,阿里巴巴的AI语音助手可以完成复杂的人类对话功能,甚至可读懂人类的潜在意图,显示出阿里巴巴已经拥有比谷歌更好的AI语音技术。
不久前,阿里巴巴达摩院的科学家在机器学习领域顶级会议NIPS(神经信息处理系统大会)上,演示了这项已应用于快递领域的AI语音技术。在约30秒的时间里,菜鸟语音助手在经历了被用户打断、更改意图、沉默等交互后,依然能够应对自如,顺利帮助用户完成了快递派送地址的更改。
今年5月份,谷歌曾发布一款酷似人类的的语音助手Duplex,可以帮助客户预定餐厅。这在业界引起了不小的关注。
但《麻省理工科技评论》认为,阿里巴巴演示中发生的一幕,揭开了人机语音交互的新序幕:当AI问用户明天早上是否可以派送时,用户回答“我早上不在家”,阿里巴巴的AI语音助手没有直接回答“是”或“否”,而是读出人类背后潜藏的意图,并采取后续行动。
“类似表达在人类对话中可能非常普遍,但机器往往很难对其进行处理。从演示的效果来看,阿里巴巴的AI语音助手能够做到这一点,说明它比谷歌更高级。”《麻省理工科技评论》认为,这显示出阿里巴巴在AI语音领域的技术能力已经超出谷歌。《麻省理工科技评论》是全球影响力最大、最权威的科技杂志之一。
此外,阿里巴巴的语音助手能让机器在跟人交互过程中既能"说"又能"听",并能模仿真人的语气、语调、语速,整个对话过程几乎听不出是机器在跟人交互。今年5月,阿里巴巴在国内展示这一技术时,现场就有观众惊呼太逼真了。
在今年双11期间,这款语音助手已为数百万用户提供服务。菜鸟提供的数据显示,平均每个快递员每天大约要送150-200个包裹,以一个电话半分钟至1分钟计算,每天光打电话就要3小时。这项技术的应用能够帮助快递员节省时间,更轻松地完成工作。
据悉,阿里巴巴目前正在限制这一技术的使用范围,以避免该技术被应用于机器对人类的欺诈行为。
附现场演示视频对话全录:
智能助手:“您好,您有一个上午送到文一西路588号的中通快递,请问方便签收吗?”
用户:“您哪位?”
智能助手:“我是菜鸟语音助手,在快递员派送前跟您确认”
用户:“我上午不在家呢”
智能助手:“那您方便留一个签收地址吗?我转告快递员为您安排。”
用户:“是什么东西啊?”
智能助手:“物流单上显示是文件”
用户:“嗯,那帮我放物业吧……算了,还是给我放到门口吧”
智能助手:“是送到门口是把?”
用户:……(沉默状态)
智能助手:“喂,还在吗?给您放在门口可以吗?”
用户:“可以的”
用户:“啊,对了,我好像还有一个中通的包裹,今天会派件吗?”
智能助手:“您稍等,这里看到您有一个中通快递的包裹,预计明天到达”
用户:“谢谢,再见”
智能助手:“再见”
好文章,需要你的鼓励
微软正与OpenAI进行高级谈判,旨在确保即使OpenAI实现通用人工智能后仍能继续使用其技术。据报道,双方谈判进展积极,可能在几周内达成协议。该协议将为OpenAI向完全商业化企业转型扫清关键障碍。微软已投资137.5亿美元,希望在重组后的公司中获得更大股份,谈判涉及30%左右的股权比例,同时确保Azure和Copilot等服务的技术供应安全。
这项由Midjourney团队主导的研究解决了AI创意写作中的关键问题:如何让AI既能写出高质量内容,又能保持创作的多样性和趣味性。通过引入"偏差度"概念和开发DDPO、DORPO两种新训练方法,他们成功让AI学会从那些被传统方法忽视的优秀独特样本中汲取创意灵感,最终训练出的模型在保持顶级质量的同时,创作多样性接近人类水平,为AI创意写作开辟了新方向。
AI初创公司Arcee.ai发布45亿参数的企业级AI模型AFM-4.5B,采用严格筛选的清洁数据训练。该模型专为商业和企业用途设计,年收入低于175万美元的企业可免费使用。相比数百亿参数的大模型,AFM-4.5B在保持强劲性能的同时具备成本效益和监管合规性。模型支持云端、本地和边缘部署,内置函数调用和智能体推理功能,旨在满足企业对速度、主权和规模的需求。
上海AI实验室联合多所高校开发出VisualPRM系统,这是首个专门用于多模态推理的过程奖励模型。该系统能像老师批改作业一样逐步检查AI的推理过程,显著提升了AI在视觉推理任务上的表现。研究团队构建了包含40万样本的训练数据集和专门的评估基准,实现了在七个推理基准上的全面性能提升,即使是最先进的大型模型也获得了5.9个百分点的改进。