谷歌半年多以前公布推出可以演奏钢琴的人工智能程序,该人工智能程序可以将一些给定的音符变成一首歌。搜索巨头谷歌日前决定与全世界分享旗下的人工智能二重奏网络应用程序。
YotamMann是一名音乐家,同时也是码农,他是上述新的人工智能程序的幕后人。他在谷歌Magenta和Creative Labs团队的帮助下创建该人工智能程序。Mann在一个视频中解释了该人工智能程序幕后的过程以及人工智能程序如何在拿到乐谱后即时弹奏新的音乐。
Mann表示,“利用代码做音乐并不是新事物,但机器学习为我们提供了一个不同的方法。假如我试图用更传统的编程去写人工智能二重奏程序的话,那我就必须写许多规则。”
曼解释说,假如用人工智能编程的旧方法,他就必须告诉计算机如何去对各种输入作出响应,而各种可能的输入非常多,要这样做是不可能的。他表示,“我主要是创建一个映射去告诉计算机如何做出这些决定,但音符和时间的组合太多,用人手映射是做不到的。”
Mann用神经网络训练人工智能二重奏程序,而不是用特定的规则编程。神经网络技术的工作原理有些像人类的大脑,一些人工神经元合力构成连接并且强化现存的知识。
谷歌将大量音符组合输送给上述的人工智能程序,该人工智能程序从这些数据里学习常常同时演奏或先后演奏的音符之间的连接、时间关系等等。你弹了几个音符后,人工智能二重奏程序就会将其数据与神经网络里的连接比较,再决定从几种可能里选一个连接演奏。Mann表示,不管你给的是什么,人工智能二重奏程序都会尝试给你伴奏,即使你砸几下键盘,它也会以相应的节奏和旋律给你伴奏。
Mann构建人工智能二重奏程序用到Magenta。Magenta是一个谷歌大脑团队用TensorFlow建造的开源深度学习库。人工智能二重奏的代码也是开源的,所以如果你想建造一款自己的演奏钢琴的机器人,现在可以开始了。
笔者与谷歌人工智能二重奏程序演奏的结果不是特别顺溜,但或许人工智能二重奏程序的弹奏水平不会超过弹奏伙伴吧。不管怎么样,人工智能二重奏程序还是没可能和我们玩“筷子”法合奏。
好文章,需要你的鼓励
文章详细介绍了Character.AI这款主要面向娱乐、角色扮演和互动叙事的AI聊天工具的原理、用户群体、特色功能以及面临的法律与伦理争议,同时揭示了其新推出的视频和游戏互动体验。
上海人工智能实验室研究团队开发了MMSI-Bench,这是首个专注于多图像空间智能评估的全面基准。研究人员花费300多小时,从12万张图像中精心构建了1000道问题,涵盖了位置关系、属性和运动等多种空间推理任务。评测结果显示,即使最先进的AI模型也仅达到41%的准确率,远低于人类的97%,揭示了AI空间认知能力的重大缺陷。研究还识别了四类主要错误:物体识别错误、场景重建错误、情境转换错误和空间逻辑错误,为未来改进提供了明确方向。
思科报告指出,自主型人工智能未来三年内有望承担高达68%的客户服务任务,通过个性化与前瞻性支持提升效率与节省成本,但用户仍重视人与人之间的互动和健全的治理机制。
卡内基梅隆大学研究团队开发了ViGoRL系统,通过视觉定位强化学习显著提升AI的视觉推理能力。该方法让模型将每个推理步骤明确锚定到图像的特定坐标,模拟人类注视点转移的认知过程。与传统方法相比,ViGoRL在SAT-2、BLINK等多项视觉理解基准上取得显著提升,并能动态放大关注区域进行细节分析。这种定位推理不仅提高了准确性,还增强了模型解释性,为更透明的AI视觉系统铺平道路。