来自语音从业者的一封批评信

本文作者：杨丽

2020-04-06 17:27

导语：“这种情况可能会导致对领域的投资不足。”

雷锋网讯，曾几何时，NLP的ImageNet时代被许多人所期待，他们希望用于语言任务的模型也能够像ImageNet在计算机视觉领域的应用一样广泛。

近日，来自俄罗斯Silero公司的数据科学家Alexander Veysov发表了一篇名为《语音从业者对业界和学术界的批评》的文章，引发了不少同行关注。

他在文中指出，“最近在大众媒体中，有监督机器学习泛滥成风。出现这种情况的原因是，无法兑现的承诺被炒作，使该领域出现了非理性的繁荣和过度投资。这种情况可能会导致对领域的投资不足。”

来自语音从业者的一封批评信

文中，Alexander Veysov以ImageNet在计算机视觉领域的广泛应用进行对比，反衬语音转文字（STT）行业的预训练模型、迁移学习和数据集都远远落后，而计算要求（正如研究论文中所述）仍然过高。

据了解，大部分语音研究是由行业/企业赞助的学者发表的。为此，作者也将批评的矛头转向了业界与学界。

首先在业界，作者表示，大多数的STT论文出自Google、Facebook、百度等科技公司的研究人员。为此，行业从业者需要关注六个核心问题：一是关注基于私有数据的解决方案而非清楚地报告；二是复杂的框架和工具包；三是解决了不存在的问题；四是论文中结果模糊不清。

例如，像“关注基于私有数据的解决方案而非清楚地报告”这一问题中，作者指出，Google等公司可能拥有1万甚至10万小时的私有数据集用于训练模型。但问题在于，他们使用这些数据以提升模型训练却并没有报告这些数据。

众所周知，语音标注需要耗费大量的资源和时间精力。标注一段1小时的语料可能需要2~10小时不等，这取决于数据集的难易程度及是否有其他自动标签。这导致了当前几乎所有人都宣称通过开源数据集LibriSpeech进行训练得到了最好的结果，但却没去说明这些模型在现实生活中的表现以及哪些模型投入了生产过程。因为像Google这样的公司都没有明显的经济动因而开源其大型专有数据集。总而言之，这为希望构建自身STT系统的从业者设置了非常高的进入门槛。

为什么会存在复杂的框架和工具包？作者指出，依靠框架或工具包而非从头编写是很常见的。如果有专门的框架和工具包，那么最好在框架提供的模型上进行构建，而不是直接在PyTorch或TensorFlow上构建自己的模型。但这在语言任务中却需要另当别论。原因有很多：

例如，代码经过优化后可在大型计算机上运行；模型仅适用于小型学术数据集，且无法在没有大量计算的情况下扩展到大型数据集；模型的样本效率极低等等。

来自语音从业者的一封批评信