MIT教你创造让人“雌雄难辨”的图灵机器秘密全在这篇论文里

本文作者： AI科技评论

2016-06-15 22:00

导语：MIT通过了“视觉”图灵测试后，又通过了“声音”图灵测试。

距离“图灵测试”的最初问世已经过了70年，“图灵测试”作为科幻元素经常出现在电影中，可是现实中仍然没有人完整地回答过这个问题：我们能否创造出行为与人类毫无二致、让人“难辨雌雄”的智能机器？

12年的时候，MIT的研究人员开发了一个通过“视觉”图灵测试的系统，可以输出让人类都难以分别的手写字。现在，MIT计算机与人工智能实验室（CSAIL）展示了一个深度学习算法，可以通过声音的图灵测试：当研究员将一个击打物品的短视频交给算法，算法就可以生成一个打击的声音，真实到可以糊弄住观看视频的人类。点击连接中的视频，看看算法生成的声音能不能糊弄住你。

这个项目的意义不只是挑战图灵测试的“聪明”把戏，研究人员认为，未来该算法的其他版本可以为电影和电视剧自动生成音效，也可以帮助机器人更好地理解物品的特性。

项目论文的第一作者、CSAIL的博士生Andrew Owens说：“当你的手指划过玻璃酒杯的杯口，酒杯发出的声音可以反映出杯中有多少液体。以声音为模型的算法可以告诉我们物品的形状、材质等重要信息，以及物品与外界互动时的力量和运动。“

团队使用了“深度学习”领域的技术，该技术需要用大量数据，教会计算机自己找到数据模式。深度学习方法非常有用，托算法的福，计算机科学家不用自己手动设计算法并监督算法的进展。

团队相信，未来该领域的研究可以提升机器人与外界环境互动的能力。“当机器人看着人行道，就会凭直觉地知道水泥地是硬的、而草是软的，从而知道如果他们踩到水泥地和草地上的时候会发生什么，”Owens说，“预测声音，对于机器人预测与外界的物理交互来说，是非常重要的一步。”

论文的共同作者包括最近获得博士学位的Philip Isola、MIT教授Edward Adelson、Bill Freeman、Josh McDermott和Antonio Torralba。研究由美国国家科学基金会（NSF）与壳牌公司（SHELL）提供部分资金支持。Owens同时获得微软研究奖学金支持。论文将于本月在拉斯维加斯举行的计算机视觉与模式识别（CVPR）年度大会上呈现。

在此，雷锋网与大家分享论文《视觉指明的声音》全文。

MIT教你创造让人“雌雄难辨”的图灵机器秘密全在这篇论文里

图表1：我们训练了一个算法，从无声的视频中合成合理的打击声音，这项任务要求具备对材料特性和物理交互的內隐知识。在每一个视频中，有人用一个击鼓棒打打击或划擦不同的物体。我们展示了两个视频中的一些帧画面，下方是预测的音轨。音轨上的点状线示意了这些样本帧的位置。预测的音轨展示了7秒的声音，对应视频中的多个打击。

论文摘要

当你击打或划擦物品时，物品会发出独特的声音——击打泥土地面是砰的一声，击打陶瓷则是清脆的“叮”一声。这些声音告诉我们物品的材料特性，以及在物理交互时的力量和运动。这篇论文中，我们将介绍一个算法，可以从人们击打物品的视频中学会合成声音。算法使用一个循环神经网络来从视频中预测声音特征，然后使用一个基于例子的合成过程，从声音特征中生成一个波形。我们证明了我们模型产生的声音非常真实，足够在“是真是假”的心理物理学试验中让被试莫辨雌雄，而且这些声音透露了关于画面中材料特性的重要信息。

1、简介

我们的生活中充满视觉体验，并伴随着可预测的声音——从陶瓷茶杯放上茶盘的清脆声音，到鞋子踩在湿软泥地的咯吱声。在很多时候，这些声音不只是从统计学上与图像的内容有关——例如，海鸥的鸣叫让我们想到海滩的画面，即便你没有看见海鸥——声音是由物理交互直接造成的：很多时候，你看得见制造声音的物体。

我们称之为“视觉指明的声音”，并提出了从视频中预测声音的任务，作为一种在视觉画面中研究物理交互的方式（图1）。为了精确预测视频的声音，算法必须对其看见的材料特性和正在进行的动作有一定了解。这是一个材料识别任务，但是与该问题的传统研究不同，我们从来没有明确告诉算法这是什么材料。算法必须通过识别原始视听信号中的统计规则，自己学会。

我们的灵感来自婴儿，婴儿通过触摸面前的物体，探索环境中的物理特性，这个过程可能帮助婴儿学会一种对于物理世界的直觉理论。近期的研究表明，这个互动过程中所产生的声音可能影响了学习过程。

我们引入了一个模拟这种探索过程的数据库，包含几百个人们用击鼓棒击打、划擦和戳动物品的视频。为了从这些视频中合成声音，我们呈现了一个算法，使用一个循环神经网络来将视频与声学特征匹配起来。然后，算法将声学特征转换为波形，例如通过将其与数据库中的例子匹配起来、调取它们相应的声音，或者通过参数来转化这些声学特征。我们使用一项心理物理学研究来评估预测声音的质量，我们还分析了我们的方法在学习预测声音的任务中，学会了什么有关动作和材料的信息。 MIT教你创造让人“雌雄难辨”的图灵机器秘密全在这篇论文里

图2：“打击声音大全1”数据库。当我们打击这些材料，他们发出什么声音？我们收集了978个视频，视频中人们用一根击鼓棒来敲打和划擦材料，一共包含了46620个动作。我们将这些动作用材料类别标签、打击位置、动作类型标签（“打击”还是“划擦”）和一个反应标签（右侧）来进行标记。我们只在分析声音预测模型学到什么的时候才使用这些标签，在训练时不使用。对于材料类别的子集，我们展示了数据库中一系列视频的图像。这里，我们展示了容易看出材料的例子。

2、相关研究

我们的研究与声音和材料知觉以及表征学习方面的研究紧密相关。

福莱

将音效加入无声电影的概念至少要追溯到20世纪20年代，当杰克·福莱及合作者们发现，他们可以在录音棚里折纸团、折断蔬菜和摇晃玻璃纸来创造出以假乱真的音效，这种方法现在被叫做“福莱方法”。我们的算法所做的就是一种自动化的福莱方法，不用人类参与，就能合成让人信以为真的音效。

声音和材料

在经典的数学研究中，Kac证明鼓的形状可以从其发出的声音中进行部分还原。同样地，坚硬度和密度等材料特性也可以从打击的声音中得知。近期的研究使用了这些原则，通过测量细微的震动来预测材料特性，类似的方法也曾使用过，从一个震动膜的高速拍摄视频中研究人员还原了声音。我们不使用摄像头作为测量震动的工具，而是通过识别这个动作在视觉观察到的环境中通常发出什么声音，来推测一个合理的声音。

3、“打击声音大全”数据库

为了研究视觉指明的声音，我们收集了一个视频数据库，视频里一个人用一根击鼓棒探测环境——通过打击、划擦和戳动画面中不同的物体（图2）。之所以击鼓棒，是为了声音产生的方式一致。而且，击鼓棒很细，不会遮住视频中太多的画面，让我们可以看到打击后发生了什么。我们将这项运动称为“反应”，这对于推测材料特性可能很重要——软的靠垫会比硬的靠垫有更多变形，声音也会相应地有所不同。相同的，打击地面时，地上的碎石和落叶会弹开，声音会根据这项运动而变化（图2，右侧）。

我们的数据库与ImageNet或者Places等以物体或者图像为中心的传统数据库不同，它们的图像重心是整个画面，我们包括了少量物体的特写视角。这些图像反应了观察者的视角，集中观察正在发生的互动；它们包含了足够的细节来看清纹理和互动后发生的反应。在一些例子中，物体只有一部分是可见的，物体的身份和其他环境的高级信息都没法轻易获知。我们的数据库还与机器人学中，关于机器人在环境中操作物体的研究类似。我们让人类来收集信息，可以快速获得真实世界场景中的大量互动。

我们一共获得了978个视频，包括室内环境（64%）和室外环境（36%）。室外环境经常包含散落或者变形的材料，例如草叶，而室内环境包含各种硬质材料，例如金属和木头。平均每个视频包含48个动作（大约69%是击打、31%是划擦），持续大约35秒。我们在摄像头顶上加上一个枪型麦克风来录音，在室外环境时带有挡风板。为了提升录音质量，我们使用了一个没有自动增强的独立录音器，并对每个音轨应用了去噪音算法。

我们通过亚马逊土耳其机器人（Amazon Mechanical Turk）的在线工人收集了一些动作的语义注释（63%的动作是用这种方式来标记的）。这包括材料标记、动作标记（“击打”或者“划擦”）、反应标记以及每个动作的像素位置。（每个动作中）这些标记的分布展示在图2中。我们特别强调，语义注释只在分析时使用：我们的算法是用原始视频训练的。图2展现了几个材料和动作类别。

MIT教你创造让人“雌雄难辨”的图灵机器秘密全在这篇论文里

图3：（a）选中类别的耳蜗图。我们基于数据库的每一个声音中抽取了声学信息，计算了我们的子带-包络表征（部分4），然后计算了每个类别的平均值。我们可以看到材料和反应的区别：举个例子，靠垫声音在低频波段包含大量能量。（b）从分类声音特性中而来的混淆矩阵。序列由混淆矩阵中行的聚集决定，对应每一个类别的混淆。

4. 声音表征

根据声音合成的研究，我们将波形分解为子带包络来获得声音特征，通过过滤波形、应用一个非线性而获得的简单表征。我们应用了40个在等效矩形带宽（ERB）上的带通滤波器，取得反应的希尔伯特包络。然后，我们将这些包络样本缩小到90Hz（大约每帧3个样品），并进行压缩。更具体地来说，我们用波形 w(t) 和过滤器 f_n 计算了包络 S_n(t)，计算方法为：

S_n = D ( | ( w * f_n ) + jH ( w * f_n ) | ) ^c

其中 H 是希尔伯特转换，D 标记缩减采样，常数 c = 0.3。

所得的表征被称为“耳蜗图”。在图3(a)，我们将一系列材料和动作类别的平均耳蜗图进行了视觉化。这证明了例如靠垫通常比更坚硬物体的声音有更多的低频能量。

总体来说，声音能否很好地反应材料特性？为了进行实证测量，我们训练了一个线性 SVM 来预测我们数据库中的材料类别声音，使用子带包络作为我们的特性向量。训练前，我们重新在数据库中取样，这样每个类别不超过300个例子。所得的材料分类有40.0%的平衡类别精度，混淆矩阵显示在图3(b)中。同时，声音相似的材料之间有很高的混淆度，例如靠垫、布料、硬纸板之间以及混凝土和瓷砖之间。

这些结果表明，声音传达了关于物品材料的重要信息，以及如果一个算法能够学会从视频中精确预测声音，它就能具有这些材料特性的內隐知识。我们现在描述一下如何从视频中推测这些声音特征。

MIT教你创造让人“雌雄难辨”的图灵机器秘密全在这篇论文里

图4：我们训练了一个神经网络来将视频序列和声音特征匹配起来。之后，通过使用参数或基于例子的合成方法，将这些声音特征转化为波形。我们使用一个卷积网络来代表图像，用一个循环神经网络来代表时间序列。我们展示了对应某个动作的后续图像。

5、预测视觉指明的声音

我们将任务表达为一个回归问题，目标是将一个视频帧数列与一个声音特征数列匹配起来。我们使用一个循环神经网络来解决问题，神经网络将颜色和动作信息作为输入，预测声音波形的子带包络。最终，我们从这些声音特征中生成一个波形。我们的神经网络和合成过程展示在图4中。

5.1. 回归声音特征

对于一输入图像数列 I₁、I₂、...I_N，我们希望预测一个对应的声音特征数列 s₁, s_2, ... s_T ,其中 s_t ∈ R⁴²。这些声音特征对应图4中的耳蜗图。我们使用一个循环神经网络（RNN）来解决这个问题，该网络将一个卷积神经网络（CNN）计算的图像特征作为输入。

图像表征

我们发现，在模型里使用一种二流方法来明白地表征运动信息非常有用。虽然二流模型经常使用光流，但是由于存在快速的、灵活的运动，我们发现要获取精确的流非常困难。我们转而计算每一帧的时空图像，图像的三个颜色通道是之前、目前和下一帧的灰度版本。这个模型中，各个通道的衍生对应临时衍生，类似于 3D 视频CNN。

针对每一帧 t，我们通过集合图像和第一颜色图像的CNN特征，建立一个输入特性向量x_t：

x_t = [ θ (F_t), θ (I₁) ],

其中 θ 是从 AlexNet 架构的 fc₇ 层获得的CNN特性。在我们的实验中（部分6），我们或者从头开始初始化CNN，与RNN一起联合训练，或者在初始化时使用权重，权重从一个针对 ImageNet 分类进行训练的网络中获得。当我们使用预训练时，我们从速度卷积层中预先计算出特性，然后只对完全联接的层进行微调。

声音预测模型

我们使用一个循环神经网络（RNN），以及一个将 CNN 特征作为输入的长短时记忆单元（LSTM）。为了弥补视频和声音取样率的差异，我们将每一个 CNN 特征向量复制 k 遍，其中 k = [ T / N ] （我们使用了 k = 3）。这产生一个 CNN 特征数列 x₁、x₂、... x_T，与声音特征的数列长度相同。在 RNN 的每一步，我们使用目前的图像特征向量 x_t 来更新隐藏变量 h_t 的向量。然后，我们用一个隐藏变量的仿射变换来计算一些声音特征：

MIT教你创造让人“雌雄难辨”的图灵机器秘密全在这篇论文里

其中 L 是一个更新隐藏状态的函数。训练中，我们将每一步预测和正确预测之间的差别最小化：

MIT教你创造让人“雌雄难辨”的图灵机器秘密全在这篇论文里

我们还预测子带包络的平方根而非包络值本身，从而增加损失函数的强度。为了让学习更简单，我们使用 PCA，在每一步将投射42维的特征向量转换为一个10维空间，并且预测这个更低维度的向量。当我们评估神经网络的时候，我们将 PCA 转化颠倒，来获取良好的特征。我们使用带有 Caffe 的随机梯度下降来联合训练 RNN 和 CNN。我们还是用了 LSTM 的多个层，层数由任务决定。

5.2. 生成波形

我们考虑了两种从声音特征中生成波形的方法。第一种是简单参数合成方法，对一个白噪音迭代性地加入子带包络（我们只使用了一次迭代）。我们发现，结果对于一些材料来说可能不自然，尤其是对于木头和金属等硬质材料——也许因为我们预测的声音，缺少真实声音那种完善的结构和随机的变化。

因此，我们还考虑了一种基于例子的合成方法，将预测声音与训练库中最接近的样本对齐。我们设置一个查询向量，方法是通过集合预测声音特征数列 s₁,...，s_T（或者是其子数列），找到训练集中最近的邻居（以L1距离为测量），取其相应的波形。

6、实验

我们将声音预测模型应用在多个任务上，并用人类研究和自动化度量对其进行评估。

6.1. 声音预测任务

为了从声音预测中分离出监测问题——也就是说，判断一个会产生声音的动作是否、以及何时会发生——我们考虑了评估两种类型的视频。首先，我们集中在预测问题，只考虑以振幅峰值为中心的视频。这些峰值总体上与动作对应，通过让声音以此为中心，我们可以与没有匹配机制的模型比较，匹配机制将声音与动作时间匹配（例如使用 CNN 特征基于最近邻居搜索的机制）。要监测这些声学峰值，我们在声音幅度上使用均值平移的一个变化版本，接着使用非最大抑制。然后，我们围绕每一个监测到的峰值取样，取一个15帧的数列（大约0.5秒）。

对第二项任务，我们称为“监测和预测”任务，我们用更长的数列来训练模型（大约2秒长），一致从0.5秒跨度的训练视频中取样。然后我们在完整程度的视频上评估我们的模型。因为要以精确到子帧的精度监测一个动作的时间节点常常很难，我们允许预测特征在与标准比较之前出现一些小变化。我们还在 RNN输出中引入了一个延迟，这让我们的模型可以在计算声音特征前，预见到未来的几个帧。对于这两项任务，我们将完整长度的视频分割为训练和测试组（75%训练、25%测试）。

模型

视频中，我们将我们的模型与基于图像的最近邻居搜索进行比较。我们从一个 CNN 中计算出了fc₇特征，CNN 在 ImageNet 上，在每一个数列的中心帧做预先训练，从结构上说，这个帧是动作产生声音的帧。为了在这一模型下为新的数列合成声音，我们将其中心帧匹配到训练库中，取用对应最佳匹配的声音（同样也是在中心帧）。我们考虑了变化版本，CNN 特征是用 RGB 图像、用（三帧的）时空图像和用两项特征的集合计算出来。

我们还探索了模型的各种变化版本，来理解不同设计决定的影响。我们包括了有或没有 ImageNet 预先训练的模型；有或没有时空图像；以及基于例子和参数波形生成。最终，我们包括了一个模型，其中 RNN 连接断裂（隐藏状态设置为步骤之间为零）。

对于进行基于例子波形生成的 RNN 模型，我们在训练库中使用了中心动作，作为数据库例子。我们在整个数列使用声音特征来进行查询。检测-预测任务中的长视频中包含多个动作声音，这就不可能做到了。我们首先在参数颠倒的波形振幅中检测峰值，然后将声音特征匹配在一个小的（8帧）窗口，从峰值前一帧开始。

6.2. 评估预测声音

我们希望评估模型生成的声音质量，并理解模型关于物理交互和材料都学到了什么。首先，我们使用自动化度量，来测量音量等客观的声学特征，并使用心理物理学实验来评估声音对人类观察者来说是否能够以假乱真。然后，我们评估预测声音对于材料和动作分类是否有效。 MIT教你创造让人“雌雄难辨”的图灵机器秘密全在这篇论文里

图5：(a) 我们计算了实验被试选择算法合成的声音、而非真实声音的比例。我们完整的系统是在ImageNet上经过预先训练，并使用基于例子的合成来方法来生成波形，显著优于基于图片配对的系统。(b) 在我们的算法看来，声音听起来都是什么样的？我们将一个用真实声音训练的分类器应用在我们算法产生的声音上，从而生成一个混淆矩阵。行对应单个类别的混淆。图3 (b) 展示了一个真实声音的混淆矩阵。

心理物理学实验

要测试模型产生的声音是否根据不同的动作和材料恰当地进行了变化，我们使用亚马逊土耳其机器人进行了一项心理物理学实验。我们使用了一个选择题，其中有两个选项，实验被试需要区分真实的和虚假的声音，必须选择其中一项。我们给被试展示了两个撞击事件的视频——一个播放录音声音，一个播放合成声音。然后，被试选出真实的声音。用来合成的算法是根据每一个视频随机选出，两个视频的顺序也是随机选出。我们从每个完整长度的视频中随机取样了15个中心为撞击的数列，给每个被试在每个视频中最多展示1个撞击。实验开始时，我们透露了5个练习数列的正确答案。

我们将我们的模型与其他几个模型进行比较（图表5），测量被试将算法的结果误以为真实结果的频率。我们发现，我们完整的系统——具有RGB和时空输入、RNN 连接、ImageNet 预测试以及基于例子的波形生成——显著优于最好的图像匹配方法和简单的基准，其中基准的声音随机从训练库（p<0.001，带有一个双面的 t 测试）。我们从头开始训练的模型也比最好的图片匹配基准显著更好（p = 0.02）。这个任务中，我们不认为在带有 RGB 和时空图像的模型与只有 RGB 的模型之间的区别足够显著（p = 0.08）。

我们发现，RNN 连接破裂的模型经常无法探测到撞击的位置，而且模型预测的声音振幅偏低。结果是，它无法找到好的匹配，并且在自动化度量中表现不佳。使用参数波形生成的模型（而非基于例子的模型）在不同类别中表现有很大差别。当模型针对树叶和泥土等材料，在相对噪音较多的环境中表现不错，而针对木头和金属等硬质材料表现不佳（泥土的混淆率为63% ± 6%，而金属的混淆率为19% ± 5%）。

MIT教你创造让人“雌雄难辨”的图灵机器秘密全在这篇论文里

图7：心理物理学实验的语义分析。我们展示了针对每一个材料、动作和反应类别，算法成功糊弄被试的几率。误差条形图是基于每个类别中被试反应的数量。我们的方法显著优于表现最好的图像匹配方法。

图7中，我们展现了根据语义类别进行分解的结果。对于某些类别（例如树叶和草），被试经常被我们的结果给糊弄住，他们要分辨真实的与合成的声音基本靠运气。对于被试持续选择合成声音的视频片段，可能是因为它们对于物体类别来说更为典型。举个例子，打击落叶的声音有很多变化，可能在视频中没有完全展示出来：我们可能听到的是叶子本身与叶子底下某些东西的结合声音。很多时候，叶子的声音对于被试来说听起来反而不自然。与之相比，我们发现被试很擅长判断真实与合成的靠垫声音，也许因为人们对靠垫应该是什么声音会更加敏感。

声学度量

我们测量了若干个声音的量化特性。首先，我们评估了声音的音量，我们认为这是声音全过程中最大的能量，我们将能量测量为每一步（压缩的）子带包络的 L2。第二步，我们比较声音的频谱质心，测量方式为取动作中心的单个帧（大约0.03秒）频率子带的中心。我们发现，在两个度量中，从均方误差和相关系数的角度来说，网络比图片匹配方法都明显更为精确（图5(a)）。

MIT教你创造让人“雌雄难辨”的图灵机器秘密全在这篇论文里

图6：(a) 我们运行了完整系统的各个版本，以及使用RGB和时空图像的图片匹配方法。对于每一个模型，我们包括了一个先知模型，从有相同真实标签的视频中获得声音样本。(b) 动作探测的查准-召回曲线，在重新生成预测波形后探测打击而获得。使用时空图像的方法优于只使用 RGB 的方法。

先知结果

材料类别信息有多有用？我们进行了第二项研究，我们探索了如果我们控制材料识别的精度，表现会有什么变化。使用带有材料注释的数据子集，我们创建了一个模型，从同样的真实类别中选择随机声音作为输入。我们还创建了一系列先知模型，使用这项材料标记（图6(a)）。针对表现最好的图像匹配模型（RGB+时空），我们限制匹配范围为具有与输入同样标示（对于基于例子合成的方法也是同样）。我们发现，虽然知道材料对于每一种方法来说都有帮助，但是这还不足够，因为先知模型没有超越我们的模型。尤其是我们模型的先知版本明显优于随机取样的先知（p < 10-4）。

图8：自动声音预测结果。我们选择了一些具有代表性的视频数列的耳蜗图，左侧每个数列都有一个样本帧。每个耳蜗图中，x 轴上的黑色三角形标记除了帧的位置。值得注意的是，算法合成的耳蜗图与真实耳蜗图的整体结构相匹配。耳蜗图里的黑线标记打击动作，算法经常能探测到。算法抓取声音的时间和光谱结构。另外，算法倾向于预测打击软靠垫等更低的音调，以及击鼓棒敲打木头扶手的更高敲击音。一个普遍的错误模式是，算法会忽略打击（栏杆的例子），或者错误“幻听”（靠垫的例子）。这在击鼓棒敲打不规律的时候经常发生。

动作监测

我们还使用了我们的方法，来为（没有调整中心的）长视频生成声音，这样我们可以评估它们监测动作事件的能力。为此我们使用了参数方法（5.2部分），从声音预测中生成了一个波形，并使用 6.1. 部分中的方法来监测振幅峰值。然后，我们将这些振幅峰值的时间点与真实的时间点进行比较，如果预测的峰值出现在 0.1 秒以内我们就认为成功监测到了动作。我们计算了一个查准-召回曲线，使用振幅作为代理，用不同的值重新设置波形并运行峰值监测程序。在图6(b)，我们将我们的模型与只使用RGB图像的模型比较，发现时空图像显著改善了结果。我们在图8中提供了定性例子。

6.3. 通过预测声音了解材料和动作

通过学习预测声音，神经网络有没有同时学到一些关于材料和动作的信息呢？为了解答这个问题，我们测试了网络的输出声音是否能体现材料和动作的类别。我们将基于真实声音特征来训练预测材料和动作类型的同一个SVM，用在我们网络预测的声音上。在这个评估机制下，神经网络的声音仅仅可以区分是不够的：为了能让从未见过预测声音的SVM正确分类，它们必须足够接近真实的声音。要避免预先训练的影响，我们使用了从头开始训练的神经网络。我们需要指出，这种评估方法和最近的无监督学习技术不同，后者利用网络内部表征来重新训练分类器，而非利用输出的标准版本。

我们在材料类别和动作类别上都使用了SVM。生成的材料类别混淆矩阵在图5(b)中，平衡精度为 18.2%（有了预先训练后，这项结果提升到 23.4%）。这项精度表明，我们的模型学会了一个输出表征，具有关于材料的信息，虽然模型训练的目的是预测声音。在从声音预测动作的任务中（同样也是使用用真实声音训练的SVM分类器），我们能够以 67.9% 的平均类别精度区分击打和划擦（在将每一个类别重新取样为各2000个例子后）。同一个分类器在真实声音中具有 84.1% 的精度。

材料类别的混淆经常出现在同一个上级类别中。举个例子，软的材料，例如布料，经常被混淆为靠垫等其他软质材料，对于硬质材料也是同样，例如瓷砖经常被误以为是混凝土。从量上说，分类器能以 69.0% 的精度区分软硬质材料。我们定义软质材料为 { 树叶，草，橡胶，布靠垫，塑料袋 } ，而硬质材料为 { 碎石，石头，瓷砖，混凝土，木头，陶瓷，塑料，干墙，玻璃，金属 }。

我们还提供了一个混淆矩阵，直接从基于视觉特征的材料类别预测中获得。这种视觉分类器犯的错误经常与声音分类器的错误不同（图3）。举个例子，视觉分类器能够区分具有非常不同视觉外表的类别，例如纸板和靠垫——但是由于两者都是低音调声音，有时候声音分类器就会犯错。另一方面，室外环境的材料更容易混淆，例如岩石和树叶——这两种材料听起来非常不同，但是经常在画面中同时出现。当我们用分类声音预测来分析我们的模型时，产生的混淆矩阵包含两种错误类型：当模型错误识别被打击的物体，这是视觉分析错误；当模型生成的声音不够接近真实声音，这是声音合成错误。

7、讨论

这项研究中，我们提出合成视觉指明的声音——这个问题要求算法学习材料特性和物理交互。我们引入了一个研究这项任务的数据库，含有一个人用击鼓棒探测环境的视频，以及一个基于循环神经网络的算法。我们用心理物理学实验和自动化度量来评估我们方法的质量，显示了我们算法的表现显著优于基准。

我们认为这项研究为未来研究打开了两个可能的方向。第一个方向是从视频中生成现实的声音，将制造声音作为目的本身。第二个方向是使用声音和材料交互，作为实现物理环境理解的一个阶梯。我们将会发布“打击声音大全”数据库以及我们算法的代码。

via RoboHub

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

1人收藏

AI科技评论

编辑

发私信

当月热门文章

MIT教你创造让人“雌雄难辨”的图灵机器 秘密全在这篇论文里

MIT教你创造让人“雌雄难辨”的图灵机器秘密全在这篇论文里