ZD至顶网软件频道消息:AWS正在让客户可以使用到为Amazon产品和能力提供支撑的人工智能技术,AWS首席执行官Jassy在本周二的re:Invent大会上这样表示。
“有很多公司并没有意识到Amazon在机器学习领域所具备的能力,”Jassy在主题演讲中说。
确实,随着云大战的升温,像Azure和Google Cloud Platform这样的竞争对手正在试图打压AWS的统治地位,而像机器学习这样的能力很大程度上成为Google的关键价值主张之一。但是Jassy指出,Amazon已经在很多方面采用了机器学习,例如声音激活助理Alexa,它的实现和逻辑能力,以及发现和搜索功能。
AWS第一款AI新产品是Amazon Rekognition,这是一个图像识别和分析服务。一旦提交图像,它就可以识别出对象和场景,可以做面部识别。它可以用于实时分析,可以批量处理数百万个图像,它易于使用且具有成本效益,Jassy这样承诺说。
第二个产品Amazon Polly是一个文本转换为语音的服务,采用了深度学习技术。一旦提交了文本流,Polly就会输出mp3音频流。有了Polly的智能特性,如果提交的是“WA的温度是75华氏度”,那么mp3输出的就是“华盛顿的温度是75华氏度”。
Polly支持24种语言的47种不同的声音。
Jassy推出的第三个产品是Amazon Lex,提供由深度学习实现的理解自然语言和自动语音识别。
这实际上是“Alexa的核心”,Jassy说。“这将让你可以开发所有类型的对话应用”。
有了在AWS上的集成开发平台,客户可以设置实例短语用于开发一个自然语言模型,并发布一个Amazon Lex Bot。用户可以设置Lambda功能或者出发提取数据用于各种请求和多步骤对话。
Amazon Lex设置了几个企业连接器,包括Salesforce、Facebook Messenger和Twilio。这是一个完全托管的服务,所以不需要花时间管理或者纵向扩展基础设施。
好文章,需要你的鼓励
这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多视角视频生成(ORV-MV)和模拟到真实的转换(ORV-S2R),有效弥合了虚拟与现实之间的差距。实验结果表明,ORV在多个数据集上的表现始终优于现有方法,为机器人学习和模拟提供了强大工具。
这项研究由Writer公司团队开发的"反思、重试、奖励"机制,通过强化学习教导大型语言模型生成更有效的自我反思内容。当模型回答错误时,它会生成反思并二次尝试,若成功则奖励反思过程。实验表明,该方法在函数调用和数学方程解题上带来显著提升,最高分别改善18.1%和34.7%。令人惊讶的是,经训练的小模型甚至超越了同家族10倍大的模型,且几乎不存在灾难性遗忘问题。这种自我改进技术为资源受限环境下的AI应用开辟了新方向。
FuseLIP是一项突破性研究,提出了通过早期融合离散标记实现多模态嵌入的新方法。与传统CLIP模型使用独立编码器不同,FuseLIP采用单一编码器同时处理图像和文本标记,实现了更自然的模态交互。研究证明,这种早期融合方法在多种多模态任务上表现优异,特别是在需要理解图像结构而非仅语义内容的任务上。研究还开发了创新的数据集和评估任务,为多模态嵌入研究提供了宝贵资源。
ByteDance与浙江大学合作开发的MERIT是首个专为多语言多条件语义检索设计的基准数据集,包含320,000条跨5种语言的查询和135,000个产品。研究发现现有模型在处理多条件查询时过度关注全局语义而忽略特定条件元素,为此提出CORAL框架,通过嵌入重建和对比学习相结合的方式,使检索性能提升45.9%。这项研究不仅识别了现有方法的关键局限性,还为多条件交错语义检索领域的未来研究奠定了基础。