微软已经在星期四推出了Cognitive Toolkit 2.0,从而更新了其人工智能框架。
所有投资深度学习的主流公司都有某种打包软件,可帮助开发人员创建神经网络模型。Google已经有TensorFlow,DeepMind发布了Sonnet,Facebook最近宣布推出Caffe2,而Amazon则推出了MXNet。
微软的版本以前被称为CNTK,该系统在去年十月发布了beta版。新的Cognitive Toolkit 2.0已经扩展到支持Python和Keras,这是一种流行的神经网络API。
考虑到Keras是一个高级框架,这是一个很好的举措,允许研究人员快速实验和建立模型。 “(它)抽象了大多数用户不需要了解的许多细节,”使用户免于面对混乱的代码行,Keras的作者及谷歌的工程师François Chollet之前对《The Register》做出了这样的解释。
微软人工智能的优势在于语音识别。去年,由微软首席语音科学家Xuedong Huang(音译:黄学东)率领的团队宣布,他们创立了一个能够以“等同于人类”水平对语音进行抄录的系统。
这个Cognitive Toolkit特别适用于自然语言处理中常用的复现神经网络和长的短期记忆网络,这并不奇怪。微软使开发人员更轻松地使用Keras分支到不同类型的神经网络。
它还将包括Java语言绑定和压缩经过训练的模型的新工具,这样在运行诸如图像识别等应用程序时所需的资源就更少。
它已经被应用于像Cortana这样的内部应用程序,这是微软的数字助理,也是微软让人工智能变得更容易访问这个更广泛的目标的一部分。
该工具包是开源的,可以在这里(https://github.com/microsoft/cntk)找到。
好文章,需要你的鼓励
微软研究院推出VIBEVOICE,这是一种革命性的AI语音合成技术,能够一次性生成长达90分钟的多人对话音频。
成均馆大学团队开发出选择性对比学习新方法,让机器通过观察人类交互场景学会识别物体功能部位。该技术突破传统局限,采用动态学习策略,能根据信息质量调整学习方式,在多个数据集上显著超越现有方法,为机器人、自动驾驶等领域的智能交互应用奠定重要基础。
微软与三星达成合作,将Copilot人工智能助手集成到三星的智能电视和显示器产品中。用户可以通过语音或遥控器直接与Copilot交互,获得智能问答、内容推荐、设备控制等服务。这一合作标志着AI助手从传统计算设备向家庭娱乐设备的进一步扩展,为用户提供更加智能化的观看体验。
新加坡南洋理工大学研究团队开发出EgoTwin系统,这是首个能够根据文字描述同时生成第一人称视频和匹配人体动作的AI框架。该系统通过创新的头部中心动作表示方法和因果交互机制,解决了视角对齐和动作画面同步的核心难题,在17万样本的真实数据集上实现了显著性能提升,为VR内容创作、影视制作等领域提供了新的技术可能。