机器人木琴演奏家Shimon：如何运用深度学习即兴创作音乐？

本文作者： Misty

编辑：刘芳平

2017-06-20 12:27

导语：音乐家们，你们感受到危机了吗？

编者按：本来作者Evan Ackerman，来源IEEE Spectrum, 由雷锋网独家编译，未经许可不可转载！

佐治亚理工大学音乐科技中心（The Georgia Tech Center for Music Technology）由佐治亚理工大学音乐学院教授Gil Weinberg创立，一直以来，它以机器人音乐创作而闻名于世。其开发出的AI和机器人可创作出令人惊叹的音乐作品，极富创造力和专业精神。

Shimon便是乔治亚音乐科技中心的音乐家之一，它是一只四臂机器人，会弹奏木琴，并能实时分析音乐，配合人类演奏。不过，虽然Shimon的才华有目共睹，但在此之前，它只会弹奏人类已经写好的乐谱。现在，Shimon已经能够运用深度学习来即兴独立创作乐曲了。更加值得一提的是，其创作出的乐曲节奏明晰，相当和谐，让人惊叹。如果你有幸听过Shimon的处女原创作品，你会发现它颇具古典爵士的风味。

Shimon的开发者是Mason Bretan，他是佐治亚理工学院音乐技术中心的一名博士研究生，主攻音乐机器人方向，他致力于将“机器即兴演奏、路径规划、身体认知”的功能最大化。旋律和和弦由四种基础旋律组合而成，其通过神经网络谱写。该神经网络接受过成熟的训练，已经吸收了将近5000首完整歌曲（包括贝多芬、披头士乐队、Lady Gaga、Miles Davis和John Coltrane），以及200万种乐旨、重复乐段、小乐句和其他的基础音乐元素。

当Bretan运用了一个节奏更快的基础旋律，Shimon则创作出了一首截然不同的音乐，风格更加明快。Shimon的第二首原创音乐便诞生了。

需要指出的是，Shimon既没有将不同的音乐单位机械地结合在一起，也没有使用某种随意的音乐生成器，而是运用深度神经网络谱写出乐曲，这就是Shimon的特别之处。事实上，Shimon所谱写的每一首音乐，都是其机器学习的成果。它能概括和弦和和声，并像人类一样从大局出发，将重点放在乐曲的整体结构上，而不是思考一段谱写一段，简单机械地拼凑出下一部分的内容。

Bretan把它叫做“高层次的音乐语义学”。目前来看，Shimon的音乐已经达到了“以假乱真”的境界，我们已经无法判断出它出自机器人之手。Weinberg用“优美、振奋人心、独特”来形容Shimon的音乐，我们非常赞同他的评价：它的音乐整体性和和谐度非常高，同时别具一格。

为了了解更多的细节，我们通过email与Bretan和Weinberg进行了交流：

IEEE Spectrum：你们先前上传了Shimon的演奏视频，那么，你们是不是特意选取了Shimon的优秀作品上传，而稍微逊色的作品，则没有上传呢？

Gil Weinberg：

视频中的音乐是Shimon运用深度学习创作的头两首曲子，我们并没有特意选择。这两首曲子是Shimon学习的成果，它所学习到的内容让它拥有了一个特定的数据库。你可以想象一下，如果我们让它学习的是其他的基础旋律，那Shimon谱写出来的曲子将会截然不同。

机器人木琴演奏家Shimon：如何运用深度学习即兴创作音乐？

IEEE Spectrum：如果你们只让Shimon学习一种类型的音乐（比如古典音乐，甚至某位特定作曲家或流派的古典音乐），那Shimon所创作的音乐是不是就能够可以具有辨识度呢？如果是，可以到达何种程度呢？

Weinberg：

Shimon的音乐和它的训练内容息息相关，因此，如果我们只训练它吸收一位作曲家（或一种特定音乐流派）的作品，那么它创作出的音乐风格将和此位作曲家（或此种音乐流派）非常一致，具有辨识度。不过，影响其作品的还有另外一个重要参数，那就是我们给予它的基础音乐参数，它能让Shimon的音乐形成自己的风格。

IEEE Spectrum：为什么你训练Shimon同时吸收乐旨、重复乐段、小乐句和其他的基础音乐元素，和完整乐曲？它是如何将这微观和宏观的两者融合在一起的？

Mason Bretan：

我们想让神经网络学习重要的结构概念。我们学习写故事，首先必须理解词、句、段等结构概念。音乐创作也一样，我们需要理解乐旨、重复乐段、小乐句、乐章等结构概念。我们鼓励Shimon学习这些音乐概念，但我们并不是直截了当地告诉它“这是乐旨、这是完整乐曲、这是小乐句”，而是动态地训练神经网络，让它能够重新排列组合基础音乐单位，在前一个或多个小节的基础上预测出下一个小节的内容。

IEEE Spectrum：您能详细地描述下Shimon创作原创音乐的过程吗？

Bretan：

首先，它需要学习音乐小片段，比如单个或多个节拍，这个步骤叫做“神经嵌入”，这是最重要的一步。在语言习得中，你也许听说过"词语矢量（word2ve或word to vector）”。何为“词语矢量”？通俗来说，就是让神经网络学习词语概念（比如“好”、“很好”、“愉快”、“精彩”等表达相同语义的词）。音乐创作中也有一个与此类似的过程，神经网络需要学习音乐小片段，并需知晓携带这些片段的载体。

第二步，它需要学习音乐小片段的排列方式，并作出预测。我们需要训练神经网络在已有的音乐小节的基础上，预测出下一个小节。确切来说，这和一般的机器人强化学习不太一样。一般来说，机器人要解决问题，学习的是一系列分离的动作。但Shimon的学习方式则是持续的，它连续不断地预测排列方式，一直处于参数更新的状态之中。举个例子，如果给出一个排列组合“1, 2, 1, 2, 1, 2, 1” ，并让Shimon预测数字“2”，那么在训练过程中，其预测的结果离“2”越远，其更新参数的强度就越大。因此，只要开始训练，Shimon就处于预测状态之中。这样连续不断下去，最终一首曲子便作成了。

IEEE Spectrum：Shimon有自己的创作风格吗？它创作的音乐和人类创作的音乐有何不同？

Weinberg：

机器人音乐创作的基本原理就是结合人类欣赏热爱的音乐（运用机器听觉和机器学习）和新的音乐演奏和思考方式（运用人类不使用的算法）。深度学习架构旨在捕捉被人类使用的音乐概念和模式。我们可以在原有的算法上加上以机器为基础的数学排列，这样一来，便能生成新奇的音乐。因此，Shimon的音乐听起来“优美、振奋人心、而独特”。

IEEE Spectrum：除了音乐创作，这种学习和即兴创作技术还有什么其他的实际应用吗？

Weinberg：