ZD至顶网软件频道消息:差不多在十年前,有一句非常著名的话,说的是“网络的另一边,跟你聊天的可能是一条狗”。而现在,这句话可以换成“网络的另一边,你多半不知道回答你问题的只是个机器人”。
随着人工智能技术的发展,个人助理机器人已经能够帮助人们做很多事,例如事项提醒、拨打电话、搜索信息等。但是,用的多了,不难发现,现有的个人助理机器人存在一些问题,例如不够聪明,没法联系上下文理解更复杂的事情,回答问题时也只能就一个问题进行回答,再加上无法根据不同“主人”进行定制,提供不了个性化的服务。
造成这些问题的原因是什么?首先,我们需要从个人助理机器人的关键技术说起。
事实上,人工智能领域的技术已经发展很多年,并且经过了几个大的起伏阶段,现阶段人工智能技术发展的主要依赖三点:深度学习、高性能计算以及大样本数据。而助理机器人主要应用的语音识别、自然语言理解、推理等技术也跟这三点息息相关,可以说正是这三点成就了个人助理机器人的崛起。
近日,微软小娜产品总监朱哲毅向记者展示了微软人工智能助手小娜Cortana的新特性,被称为小娜2.0的新机器人在很多方面都实现了对小娜1.0的颠覆,例如更聪明,可以进行多步推理,更温柔,说话更有感情,并且更贴心,可以提供个性化的服务。
多步推理更聪明
朱哲毅:“我明天需要带伞吗?”
小娜:“明天天气是晴,不用带伞。”
在沟通会现场,朱哲毅和小娜进行了以上对话,这段对话在人们之间再普通不过,但是对于机器却并不容易。首先,机器需要读懂问话的意思,这点对目前市面上大多数个人助理来说都不难,其次要明白“伞”与“天气”之间的关系,判断天气,最后推断出“要不要带伞”,而这对于很多机器人来说就不是一件容易的事情了。
朱哲毅表示,普通人类的推理能力一般可以达到10步,但是对于机器人来说,实现3步的推理都很不容易了。
除此之外,朱哲毅亦坦言,对于人工智能机器人来说,自然语言的理解难度也不小,例如:同义词太多,如果不理解上下文,很难判断这些词语的正确含义;新词太多,没有在新词训练的情况下如何理解新词;大数据中的杂音非常多,如何提炼有用的数据等。
在这里,我们不得不提一下微软的语音识别和自然语言理解技术了。目前,准确度最高的是基于深度学习的语言模型,而模型的有效性则依赖强大的计算能力和足够多的数据对该模型进行训练,这两点微软做的都不错。首先,云计算让计算能力得到了非常大的提升,而微软在语料库的完善方面几乎不惜血本。目前,微软已经可以支持50多种语言的文本识别,18种语言的语音识别。
当然,作为所有技术的基础,微软自有深度学习网络框架ResNet的发展也可圈可点。目前,ResNet的卷积层数已经能够达到152层,远远超过此前AlexNet框架(8层卷积层)、VGG框架(19层卷积层)。朱哲毅表示,基于微软强大的深度学习技术,再经过很多次学习和演示,微软小娜才能更聪明,对自然语言理解达到更高的辨识度。
情感框架让机器更温暖
除此之外,小娜2.0 还首次增加了情感计算框架,最直观的表现就是相比此前冷冰冰的机器音,小娜2.0的合成语音更类人,几乎分辨不出是机器人在说话。
其实,人类复杂的情感一直是科学难以突破的研究领域,相同的语言表达在不同的情感环境下,可能表达的意思差别非常大,甚至可能截然相反,这点对于机器来说太难了。朱哲毅表示,未来,小娜将不断完善情感计算框架的算法,使小娜更能理解人类的情感,并作出反应。
个性化服务更贴心
据了解,小娜Cortana 是微软发布的全球第一款个人智能助理,美国《TIME》杂志评论说,小娜比Siri好的原因是因为小娜可以真正和用户一起成长。
朱哲毅表示,所谓的“与用户一起成长”指的是,小娜可以针对不同用户的特点进行自我学习,并依据用户的习惯、工作特点等提供更有针对性的服务。为了强化这点,小娜在2.0上特意在算法上进行了提升,不仅简化了现有的算法,还增加了在手机端的实时计算能力。
据了解,在小娜2.0背后,其技术团队进行了非常多的努力,不仅将代码重新推翻重写,还对市面上的众多终端设备进行了适配,同时还将小娜背后的支持服务器群进行扩容。所有这些努力,最终让升级后的小娜实现提速200%。
当然,不管是更聪明、更温暖、更贴心,这都不是小娜的最终目标,在设计之初,微软对小娜的定位是成为每一个人专属的私人助理,打造真正人性化的人工智能。朱哲毅表示,微软小娜不只是一个App,她将成为一个入口或者操作系统,通过与硬件厂商的合作,最终形成一个生态链的闭环,让每一个街角,每一个房间,每一个家庭,每一个办公室都有人工智能的存在。
好文章,需要你的鼓励
AI颠覆预计将在2026年持续,推动企业适应不断演进的技术并扩大规模。国际奥委会、Moderna和Sportradar的领导者在纽约路透社峰会上分享了他们的AI策略。讨论焦点包括自建AI与购买第三方资源的选择,AI在内部流程优化和外部产品开发中的应用,以及小型模型在日常应用中的潜力。专家建议,企业应将AI建设融入企业文化,以创新而非成本节约为驱动力。
字节跳动等机构联合发布GAR技术,让AI能同时理解图像的全局和局部信息,实现对多个区域间复杂关系的准确分析。该技术通过RoI对齐特征重放方法,在保持全局视野的同时提取精确细节,在多项测试中表现出色,甚至在某些指标上超越了体积更大的模型,为AI视觉理解能力带来重要突破。
Spotify在新西兰测试推出AI提示播放列表功能,用户可通过文字描述需求让AI根据指令和听歌历史生成个性化播放列表。该功能允许用户设置定期刷新,相当于创建可控制算法的每周发现播放列表。这是Spotify赋予用户更多控制权努力的一部分,此前其AI DJ功能也增加了语音提示选项,反映了各平台让用户更好控制算法推荐的趋势。
Inclusion AI团队推出首个开源万亿参数思维模型Ring-1T,通过IcePop、C3PO++和ASystem三项核心技术突破,解决了超大规模强化学习训练的稳定性和效率难题。该模型在AIME-2025获得93.4分,IMO-2025达到银牌水平,CodeForces获得2088分,展现出卓越的数学推理和编程能力,为AI推理能力发展树立了新的里程碑。