谷歌半年多以前公布推出可以演奏钢琴的人工智能程序,该人工智能程序可以将一些给定的音符变成一首歌。搜索巨头谷歌日前决定与全世界分享旗下的人工智能二重奏网络应用程序。
YotamMann是一名音乐家,同时也是码农,他是上述新的人工智能程序的幕后人。他在谷歌Magenta和Creative Labs团队的帮助下创建该人工智能程序。Mann在一个视频中解释了该人工智能程序幕后的过程以及人工智能程序如何在拿到乐谱后即时弹奏新的音乐。
Mann表示,“利用代码做音乐并不是新事物,但机器学习为我们提供了一个不同的方法。假如我试图用更传统的编程去写人工智能二重奏程序的话,那我就必须写许多规则。”
曼解释说,假如用人工智能编程的旧方法,他就必须告诉计算机如何去对各种输入作出响应,而各种可能的输入非常多,要这样做是不可能的。他表示,“我主要是创建一个映射去告诉计算机如何做出这些决定,但音符和时间的组合太多,用人手映射是做不到的。”
Mann用神经网络训练人工智能二重奏程序,而不是用特定的规则编程。神经网络技术的工作原理有些像人类的大脑,一些人工神经元合力构成连接并且强化现存的知识。
谷歌将大量音符组合输送给上述的人工智能程序,该人工智能程序从这些数据里学习常常同时演奏或先后演奏的音符之间的连接、时间关系等等。你弹了几个音符后,人工智能二重奏程序就会将其数据与神经网络里的连接比较,再决定从几种可能里选一个连接演奏。Mann表示,不管你给的是什么,人工智能二重奏程序都会尝试给你伴奏,即使你砸几下键盘,它也会以相应的节奏和旋律给你伴奏。
Mann构建人工智能二重奏程序用到Magenta。Magenta是一个谷歌大脑团队用TensorFlow建造的开源深度学习库。人工智能二重奏的代码也是开源的,所以如果你想建造一款自己的演奏钢琴的机器人,现在可以开始了。
笔者与谷歌人工智能二重奏程序演奏的结果不是特别顺溜,但或许人工智能二重奏程序的弹奏水平不会超过弹奏伙伴吧。不管怎么样,人工智能二重奏程序还是没可能和我们玩“筷子”法合奏。
好文章,需要你的鼓励
本文探讨了AI发展的未来趋势,详细分析了六条有望实现通用人工智能(AGI)的技术路径。随着生成式AI和大语言模型面临发展瓶颈,业界开始将目光转向其他AI发展方向。这六条路径包括神经符号AI、神经形态AI、具身AI、多智能体AI、以人为中心的AI和量子AI。每种路径都有其独特优势和挑战,可能单独或组合推动AI进入下一个发展阶段,最终实现与人类智能相当的AGI系统。
约翰霍普金斯大学研究团队发现VAR模型的马尔可夫变体本质上是离散扩散模型,提出SRDD方法。通过应用扩散模型技术如分类器自由引导、令牌重采样等,SRDD相比VAR在图像质量上提升15-20%,同时具备更好的零样本性能。这项研究架起了自回归模型与扩散模型的理论桥梁,为视觉生成技术发展开启新方向。
培生公司第三季度销售增长加速,并预示年底表现更强劲,但其AI应用可能是更重要的发展。该公司虚拟学习部门销售额激增17%,学生注册人数攀升。培生运营的在线学校将AI工具嵌入课程材料中,公司表示有越来越多证据显示这些工具帮助学生取得更好成绩。公司推出了AI学习内容组合,包括AI素养模块和融合人工导师与AI学习工具的视频平台。
微软亚洲研究院推出CAD-Tokenizer技术,首次实现AI通过自然语言指令进行3D模型设计和编辑的统一处理。该技术通过专门的CAD分词器和原语级理解机制,让AI能像设计师一样理解设计逻辑,大幅提升了设计精度和效率,有望推动工业设计的民主化进程。