至顶网软件频道消息: 微软公司副总裁、人工智能与研究首席技术官David Ku在一篇博客文章中宣布,微软收购位于美国加州伯克利的会话人工智能公司Semantic Machines。Semantic Machines开发的自然语言处理技术将被整合到微软产品中,如Cortana和Azure Bot Service。
Semantic Machines在其网站上表示,现有的自然语言系统如苹果Siri、微软Cortana和Google Now只能理解命令,而不能理解对话。但是,Semantic Machines的技术可以理解对话,而不仅仅是命令。目前各种数字助理可以处理的最典型的命令包括天气报告、音乐控制、设置计时器和创建提醒等。Ku表示:“为了进行丰富而有效的沟通,智能助理需要能够进行自然对话,而不仅仅是响应命令。”
Semantic Machines联合创始人兼首席执行官Daniel Roth是一位技术企业家,他还曾创建了Voice Signal Technologies公司(2007年被Nuance Communications以3亿美元收购)和Shaser BioScience公司(2012年被Spectrum Brands以1亿美元收购)。是Semantic Machines联合创始人兼首席财务官Damon Pender,之前曾是TeraDiode、Shaser BioScience和NeoSaej的首席财务官。Semantic Machines的联合创始人兼首席技术官Larry Gillick曾担任Dragon Systems研究副总裁、语音信号技术核心技术副总裁、Nuance移动设备研究副总裁、苹果Siri首席语音科学家。Semantic Machines联合创始人、首席科学家兼研究副总裁Dan Klein是加州大学伯克利分校的计算机科学教授,此前曾担任Adap.tv的首席科学家。
Semantic Machines的核心产品之一是其Conversation Engine,该引擎从语音或文本等自然输入中提取语义意图,然后生成一个自我更新学习框架,用于管理对话上下文、状态、特点以及最终用户的目标。此外,对话引擎自然语言生成(NLG)技术基于对话上下文与用户进行交流。Ku补充道,Semantic Machines利用机器学习来让用户“以更自然的方式发现、访问信息和服务并与之互动,大大减少工作量。”
微软成为首家为对话式AI系统增加全双工语音感的公司,让用户自然地与小冰和Cortana进行对话。小冰在美国、中国、印度、日本和印度尼西亚的用户达到2亿,对话总量超过300亿次,平均每次达30分钟。
好文章,需要你的鼓励
这篇研究重新审视了循环神经网络中的双线性状态转换机制,挑战了传统观点。高通AI研究团队证明,隐藏单元不仅是被动记忆存储,更是网络计算的积极参与者。研究建立了一个从实数对角线到完全双线性的模型层级,对应不同复杂度的状态跟踪任务。实验表明,双线性RNN能有效学习各种状态跟踪任务,甚至只需极少量训练数据。研究还发现,纯乘法交互比加法交互更有利于状态跟踪,为循环网络设计提供了新视角。
这项研究探讨了多模态大语言模型在增强推理能力时出现的视觉幻觉问题。研究发现,模型生成更长推理链时,对视觉信息的关注减少,导致幻觉增加。研究者提出RH-AUC指标和RH-Bench基准来评估模型在推理与幻觉间的平衡,发现较大模型表现更好,纯强化学习训练优于监督微调加强化学习,且训练数据的类型比数量更重要。这些发现对开发既具推理能力又保持视觉准确性的AI系统具有重要意义。
这篇研究探讨了大语言模型在自动推理任务中的不确定性问题。研究者提出,模型生成形式规范时的概率不确定性不是缺陷,而是宝贵的信号源。通过引入概率上下文无关文法框架分析SMT-LIB程序分布,他们发现不确定性信号具有任务相关性(如逻辑任务中的语法熵AUROC>0.93)。他们的轻量级信号融合方法能减少14-100%的错误,仅需最小弃权,将大语言模型驱动的形式化转变为可靠工程学科。研究揭示当模型正确理解逻辑关系时会产生稳定的语法模式,为判断何时信任模型提供了可靠指标。
来自沙特阿拉伯王子苏丹大学和阿尔法萨尔大学的研究团队开发了GATE(General Arabic Text Embedding)模型,这是一套专为阿拉伯语设计的文本嵌入系统。该研究结合了套娃表示学习和混合损失训练方法,解决了阿拉伯语特有的语义处理挑战。GATE模型在MTEB基准测试的语义文本相似度任务中表现卓越,比包括OpenAI在内的更大模型高出20-25%,同时保持了多维度(768至64)的高效表现。研究通过详细的错误分析揭示了模型在不同相似度水平上的表现特点,为阿拉伯语NLP领域提供了新的研究方向。