至顶网软件频道消息: 在AI领域,微软是一支不可或缺的力量。众所周知,微软在AI研究上一直长期不断的坚持投入。早在27年前,微软研究院创立的时候,最早成立的三个研究组(包括自然语言、语音与计算机视觉)都是围绕人工智能展开的,持续不断地研究,让微软在人工智能技术上硕果累累,如今不管是图像识别、语音识别还是机器翻译,以及AI的各个细分领域,微软技术都居于全球领先地位。
不久前,微软研发的机器翻译系统在通用新闻报道测试集Newstest2017的中-英测试集上,达到了可与人工翻译媲美的水平。这是首个在新闻报道的翻译质量和准确率上可以比肩人工翻译的翻译系统;一年前,微软在Switchboard语音识别基准测试中的错误率已经降低至5.1%,达到了媲美人类专业速记员的水平;两年前,微软在RESNET测试上以152层、96%的准确率拔得头筹……类似的前沿研究成果还有很多。
当然,技术先进并不是微软AI的唯一标签,让微软在AI领域区别于其他公司的另一个鲜明特征是微软AI的平民化。除了与很多大公司一样关注AI在自动驾驶、医疗诊断等领域的应用,微软还将大量的研究集中于普通人可用的AI技术,让AI服务于普罗大众。实际上,在不经意间微软的AI技术已经随着微软的产品进入千家万户,比如最为大家熟悉的Windows 10桌面上的Cortana、几乎人人都在用的Office 365和搜索引擎Bing,还有可以作诗唱歌、与人对话的小冰等,这些简单易用的产品和服务背后都是微软AI技术在支撑。
以Cortana为例,这个微软打造的个人信息助理已经足够聪明,能帮忙你快速查看日程安排、了解你的会议时间和地点,规划适当的差旅时间,甚至从你的日历中获取更新以了解未来的行程。而Office 365 中AI更是无所不在,比如你只需按下ALT+Q 这个快捷键,输入想要做的事情,Office 应用程序会聪明地理解你的想法。
微软AI不只是普通人的AI,同时还是特殊人群可以使用的AI。在不久前的微软Build大会上,微软发布了一项统一语音服务通过让语音转换为文字让失聪者也能“听见”别人在说什么,其中包括针对特定人声和环境噪音的可定制声学模型、针对特定术语的语言模型和翻译功能,以及能对发声进行定制的文本到语音转换功能等。同样在这次大会上,微软还宣布推出“人工智能无障碍计划”,将在未来五年内投入2500万美元,用于研发能够增强人类能力的人工智能技术,以造福全球各地超过10亿残障人士。
值得一提的是,如今微软AI的能力不仅透过微软的产品(比如Office 365)服务于普通大众,还可以通过微软的Azure智能云平台,以微软认知服务的形式融入众多合作伙伴的产品中,从而让更多创新成为可能。
毫无疑问,在当今人工智能和机器学习领域,微软是主要的领导者,也是受到企业和开发者广泛信任、并为之大力投入的技术合作伙伴。
如果您希望了解更多最前沿、最实用的AI技术,希望了解微软AI的最新进展,欢迎来参加5月21日的微软人工智能大会(Microsoft AI Innovate 2018),这是微软中国首届并且是年度最大的人工智能盛会。届时,微软全球执行副总裁、微软人工智能及微软研究事业部负责人沈向洋、微软公司云计算与人工智能事业部全球高级副总裁郭昱廷、微软(亚洲)互联网工程院副院长李笛等微软技术大拿将亲临大会现场,与其他众多技术大牛和行业应用大咖一起带给您一场AI的盛宴。
5月21日,北京嘉里大酒店,不见不散。
好文章,需要你的鼓励
这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多视角视频生成(ORV-MV)和模拟到真实的转换(ORV-S2R),有效弥合了虚拟与现实之间的差距。实验结果表明,ORV在多个数据集上的表现始终优于现有方法,为机器人学习和模拟提供了强大工具。
这项研究由Writer公司团队开发的"反思、重试、奖励"机制,通过强化学习教导大型语言模型生成更有效的自我反思内容。当模型回答错误时,它会生成反思并二次尝试,若成功则奖励反思过程。实验表明,该方法在函数调用和数学方程解题上带来显著提升,最高分别改善18.1%和34.7%。令人惊讶的是,经训练的小模型甚至超越了同家族10倍大的模型,且几乎不存在灾难性遗忘问题。这种自我改进技术为资源受限环境下的AI应用开辟了新方向。
FuseLIP是一项突破性研究,提出了通过早期融合离散标记实现多模态嵌入的新方法。与传统CLIP模型使用独立编码器不同,FuseLIP采用单一编码器同时处理图像和文本标记,实现了更自然的模态交互。研究证明,这种早期融合方法在多种多模态任务上表现优异,特别是在需要理解图像结构而非仅语义内容的任务上。研究还开发了创新的数据集和评估任务,为多模态嵌入研究提供了宝贵资源。
ByteDance与浙江大学合作开发的MERIT是首个专为多语言多条件语义检索设计的基准数据集,包含320,000条跨5种语言的查询和135,000个产品。研究发现现有模型在处理多条件查询时过度关注全局语义而忽略特定条件元素,为此提出CORAL框架,通过嵌入重建和对比学习相结合的方式,使检索性能提升45.9%。这项研究不仅识别了现有方法的关键局限性,还为多条件交错语义检索领域的未来研究奠定了基础。