至顶网软件频道消息:Google的大脑团队是开源Tensor2Tensor,这是一个新的深度学习库,旨在帮助研究人员从领域内最新论文中复制结果,并通过尝试新的模型、数据集和其他参数的组合来拓宽可能的界限。人工智能研究中变种的数量众多与新开发的快节奏相结合,使实验难以在截然不同的两者间进行匹配。这是研究人员的痛苦,拖慢了研究进程。
Tensor2Tensor库在进行人工智能研究时可以更容易地保持最佳实践。它配备了各种关键要素,包括超参数、数据集、模型架构和学习速率衰减方案。
最好的地方在于,这些组件中的任何一个都可以以模块化的方式进出,完全不会破坏任何东西。从培训的角度来看,这意味着有了Tensor2Tensor,你可以随时引入新的模型和数据集 ——比通常可能使用的方式要简单得多。
在追求帮助研究成果在实验室外可复制方面,谷歌并不孤单。Facebook最近开放了ParlAI的源代码,它是一款可以将常用数据集打包进行对话研究的工具。
与之类似,谷歌的Tensor2Tensor也附带了最近的谷歌研究项目,例如“Attention Is All You Need(你需要的只是专注)”和“One Model to Learn Them All(一个模块了解全部)”等。现在可以在Github上使用这一切,所以您就可以开始训练自己的深度学习支持的工具了。
好文章,需要你的鼓励
微软研究院推出VIBEVOICE,这是一种革命性的AI语音合成技术,能够一次性生成长达90分钟的多人对话音频。
成均馆大学团队开发出选择性对比学习新方法,让机器通过观察人类交互场景学会识别物体功能部位。该技术突破传统局限,采用动态学习策略,能根据信息质量调整学习方式,在多个数据集上显著超越现有方法,为机器人、自动驾驶等领域的智能交互应用奠定重要基础。
微软与三星达成合作,将Copilot人工智能助手集成到三星的智能电视和显示器产品中。用户可以通过语音或遥控器直接与Copilot交互,获得智能问答、内容推荐、设备控制等服务。这一合作标志着AI助手从传统计算设备向家庭娱乐设备的进一步扩展,为用户提供更加智能化的观看体验。
新加坡南洋理工大学研究团队开发出EgoTwin系统,这是首个能够根据文字描述同时生成第一人称视频和匹配人体动作的AI框架。该系统通过创新的头部中心动作表示方法和因果交互机制,解决了视角对齐和动作画面同步的核心难题,在17万样本的真实数据集上实现了显著性能提升,为VR内容创作、影视制作等领域提供了新的技术可能。