至顶网软件频道消息: 7月5日,阿里巴巴集团正式发布由旗下人工智能实验室(A.I. Labs)研发的第一款智能语音终端设备——天猫精灵X1。这是一款面向家庭用户的消费级AI产品,定价人民币499元,内置阿里巴巴推出的第一代人机交流系统——AliGenie。
用户对着智能音箱说一声“天猫精灵”,就可以召唤云端的AliGenie提供服务。例如播音乐、听故事、讲笑话、查运势、玩游戏、查天气、找手机、问百科、设闹钟/定时器、充话费、查快递、查价格、天猫魔盒控制、智能家电操控等功能。依靠阿里云强大的机器学习技术和计算能力,AliGenie能够不断进化成长,越用越聪明,成为人类贴心的智能助手。
“这是我们在人机交互新大陆上的探索,希望和大家一起体验探索未知世界的乐趣。”阿里人工智能实验室负责人浅雪说,语言是人与人之间最主要的沟通方式,也应该是人与另外一种智能进行交流的主要方式。云端一体化带来的趋势是高度智能化,智能终端需要一个比手机触屏更强大的人机交互方式。
外观轻巧灵动 全程用对话沟通
天猫精灵X1采用了圆柱形的设计,有黑白两种配色,直径83毫米。在X1顶部中央,配有一枚静音键。当用户触发此键时,X1会立刻停止声音播放,并停止识音功能,以有效保证用户隐私。
X1底部设计了一圈隐藏指示灯,会通过声音来判断用户方位,亮起灯光以示提醒,灯光还会根据不同使用功能和场景配合进行提示。
在配置方面,X1 采用了业内首颗 SmartAudio专业处理芯片,相比此前市面上的主流芯片,处理效率提升25%,功耗降低32%。
X1搭载了6麦克风环形阵列,能够在家庭环境下实现5米范围语音识别。并经过专业音效调节的独立功放芯片,使得X1同时也具有优秀的外放效果。
针对声音环境的多变性,X1还具备一定的自我学习功能,可以根据环境噪音进行优化,适应不同家庭环境噪音。经过一周左右的使用,X1会更加适应所在环境,语音识别准确率达到业界最高水平。
考虑到中文语义环境的复杂性,阿里人工智能实验室通过众包平台等方式,针对生活中的各种生活场景所需要用到的语义问法进行了征集,仅天气预报就能够理解786种中文问法,通过深度机器学习,天猫精灵X1已覆盖20个领域的中文自然语义理解,能够理解人类80%的意图。
声纹识别可以分辨家里每一个人
有别于其他的智能音箱产品,天猫精灵X1除了具备语音控制音乐和音频内容播放等功能外,还通过AliGenie接入了丰富的生活服务。目前已经达成的合作伙伴包括美泰、KEEP、西溪天堂综合体、优酷、高德地图、淘票票、支付宝、虾米音乐、天猫超市、菜鸟裹裹、喜马拉雅FM、淘宝网、阿里智能联盟、阿里数娱、天猫魔盒、绘儿乐、吴晓波频道、飞猪、盒马鲜生等。AliGenie丰富的合作伙伴与第三方技能服务将带来更好的体验。
天猫精灵X1可以通过声纹识别技术分辨家里的每一个人。浅雪介绍,声纹识别技术是生物识别的重要识别手段之一,结合服务链多重安全机制,已达到商用的级别。这也是阿里在语音深度学习领域的核心技术之一。据悉,天猫精灵目前最多可以识别6个人的身份。通过个性化推荐,声纹识别在辨别出使用者的身份后还能够实现“千人千面”,根据每个人的喜好设定和推送不同的内容。
比如,声纹识别技术可以应用到一些购物场景中。用户先将自己的声音注册后生成声音密码,与机器绑定后,确认开启声纹购功能。随后,当你说出 “帮我买一箱牛奶”这样的需求时,天猫精灵会要求用户跟着念一串随机数字进行声纹校验,如果确认为用户本人,天猫精灵会从用户绑定的支付宝中进行扣款完成交易。
天猫精灵X1于7月5日开始进行限量公测,用户可以在天猫精灵官网(bot.tmall.com)申请公测,8月8日将进行首批正式发售。
同期发布AliGenie开发者平台 开放软硬件核心技术
据介绍,天猫精灵X1内置了第一代人机交流系统AliGenie,由阿里巴巴的科学家团队研发, 应用了积累多年的自然语言理解和处理技术。当天,阿里人工智能实验室还同时发布了面向开发者和硬件厂商的AliGenie开发者平台。
AliGenie开发者平台将向应用开发者免费开放NLP语义理解、TTS语音合成等多项自然语言处理技术。开发者既可以创建技能,为更多的语音用户提供服务,也可以将自己的设备接入云端服务,获取语音交互能力。
除了技术的开放外,生态的开放会是平台开放的特色和重点。开发者可以为天猫精灵用户开发多种“技能”服务。目前,天猫超市、菜鸟、KEEP等已推出基于天猫精灵X1的语音应用,用户只需动动口就可以完成话费充值、购买商品、健身语音提示等服务,很快还将上线打车、叫外卖、叫保洁等服务。
针对内容创作者,AliGenie还提供了语音公众号功能,开发者只需将语音或文字上传至后台就可以完成应用的创建和发布,文字将通过语音合成引擎转换为语音,用户可以通过订阅实现定时播放,点播,开发者也可以进行主动推送,或联合其他应用进行深入集成,组合播放,为内容创作者开辟了新的传播方式。
AliGenie开发者平台还为硬件制造企业准备了单麦克风到多麦克风阵列的参考设计方案,并提供包括唤醒词定制,声学结构,核心电路设计和芯片方案在内的相关套件的参考设计,以及云端服务和应用管理所必要的全套工具和用户APP SDK组件。接入的硬件设备能够快速具备人机语音交互能力,并共享应用商店的所有应用技能。
在发布会上,阿里人工智能实验室也公布了首个硬件开放合作伙伴——将与国际玩具巨头美泰合作探索其旗下主要核心IP如费雪、芭比、托马斯和朋友等智能玩具的合作开发机会。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。