ZDNet至顶网软件频道消息: IBM的Watson自然语言查询/认知计算是蓝色巨人的巨大公关举措。三年前,Watson在国家电视台的节目中击败了Jeopardy冠军Ken Jennings,并且在随后的胜利之旅中击败了其他的挑战者。IBM引领这个潮流多年,尽管面临诸多困难,它仍然做出了很出色的成绩。IBM希望Watson到2023年能够做到100亿规模的业务。
IBM在Watson上投入了数百万美元的资金,现在是Watson成为“一个基于市场的解决方案”的时候了。它需要证明自己的存在价值。IBM一直在沿着这条路前进,通过API让Watson更广泛地被外部开发人员接触到,该公司在今年早些时候还设立了新的Watson部门。该公司正在医疗保健和金融服务应用领域推动Watson的应用。该公司上周开始将Watson分析作为一项增值服务免费提供给用户。
IBM Watson高级副总裁Mike Rhodin星期二在麻省理工学院举办的Emtech 2014大会上指出,以下几点就是Watson——或者更确切地说是Watson的经验——教给IBM的东西。
Watson还是一个仍然在进展项目。Rhodin表示所有的工作都是围绕着认知计算的,包括自然语言处理,这些都让人回想起上个世纪六十年代在计算机操作系统世界发生的一切。
Rhodin表示,“Jeopardy是一个很好的开始,所以我们有了一个Q&A引擎,但是我们也在建立一个归纳系统和一个推理引擎,这些都是一个更广阔的平台的一部分。”
五十年前,通用可编程系统开始流行,但是随着时间的推移,出现了一些新的子系统——比如文件系统和数据库系统,Rhodin表示,它们“一层又一层地完善着整个平台,并最终让全世界的金融系统和旅游行业实现了自动化。” Rhodin表示,“我们将在未来五十年中看到这个系统慢慢出现。”
我没有狡辩。但是由于其他的公司——谷歌、苹果、微软和很多我们叫不上名字的公司也在努力攻克这个难题,IBM能否成为领导者还没有定论。
它知道自己必须做什么——建立或者吸引应用使用Watson不断发展的强大功能。现在它必须执行。Gigaom 的Derrick Harris在一年前写过IBM决定向开发者们开放Watson API:“如果IBM真的围绕着Watson提供可行的云计算平台,开发人员真的可以利用它建设新的、智能的应用,这将会是很伟大的事。”
好文章,需要你的鼓励
这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多视角视频生成(ORV-MV)和模拟到真实的转换(ORV-S2R),有效弥合了虚拟与现实之间的差距。实验结果表明,ORV在多个数据集上的表现始终优于现有方法,为机器人学习和模拟提供了强大工具。
这项研究由Writer公司团队开发的"反思、重试、奖励"机制,通过强化学习教导大型语言模型生成更有效的自我反思内容。当模型回答错误时,它会生成反思并二次尝试,若成功则奖励反思过程。实验表明,该方法在函数调用和数学方程解题上带来显著提升,最高分别改善18.1%和34.7%。令人惊讶的是,经训练的小模型甚至超越了同家族10倍大的模型,且几乎不存在灾难性遗忘问题。这种自我改进技术为资源受限环境下的AI应用开辟了新方向。
FuseLIP是一项突破性研究,提出了通过早期融合离散标记实现多模态嵌入的新方法。与传统CLIP模型使用独立编码器不同,FuseLIP采用单一编码器同时处理图像和文本标记,实现了更自然的模态交互。研究证明,这种早期融合方法在多种多模态任务上表现优异,特别是在需要理解图像结构而非仅语义内容的任务上。研究还开发了创新的数据集和评估任务,为多模态嵌入研究提供了宝贵资源。
ByteDance与浙江大学合作开发的MERIT是首个专为多语言多条件语义检索设计的基准数据集,包含320,000条跨5种语言的查询和135,000个产品。研究发现现有模型在处理多条件查询时过度关注全局语义而忽略特定条件元素,为此提出CORAL框架,通过嵌入重建和对比学习相结合的方式,使检索性能提升45.9%。这项研究不仅识别了现有方法的关键局限性,还为多条件交错语义检索领域的未来研究奠定了基础。