12
在很多重要的场所或者对话过程中,需要用到速记,它的特点就是记录速度快、效率高,可以用比汉字快三倍以上的书写速度来记录别人的对话。但速记毕竟是个技术活,不是人人都可以轻松掌握的一项技能,另外专业速记人员不好请(现场速记略贵)也是一个不争的事实,所以在很多场景下,将现场录音转交速记人员转录成文字成了不二之选。
那么将录音转录为文字,能不需要人工吗?将语音转化为文字,对目前的技术而言并非难事,很多语音助手都有较高的语音识别度,就连微信也能直接将语音翻译为文字,就更别说那些能支持语音输入的输入法们,所以要将将录音转为文字,是可以让机器完成的。
90后创业团队听道在做就是这个,用创始人董建成自己的话说就是“我们自己的‘初心’就是让更多需要技术来解决问题的人能用得上高新技术,而不是让技术成为摆设,有困难的人还是得不到解决,所以我们定位是在技术层到应用层的企业“。
董建成(公众号:ting dao):目前采用的语音识别技术虽然不是自己做得,但也不是哪一家的,而是同时选用了多家语音识别的技术。之所以不自己做,是这块如果没有个一二十年的积累,肯定是做不出来的,尤其是对于小团队来说,第一没这个能力做,第二即便现在去做,也做不过别人。
选择多家技术的糅合也不是没有章法的,经过研究对比,我们发现每个引擎(语音识别技术)都有自己擅长处理的一个领域,有的善于处理KTV环境下的录音,有的对大马路上的录音处理效果好,不同环境下,不同领域内的词汇偏重,都会影响最终的转录效果。
降噪部分我们自己做,有单独的算法,不但降噪还能自动把每句话是时间点精确地自动地切分好,提高识别效率,不过音源肯定是清晰度越高越好,因为即使有降噪,也会降低识别准确度,音源清晰发音清晰最好
我们还能通过对录音环境的甄别,领域的划分,对比结果后选择最好的文字呈现给用户,但是对于口音暂时没有自动区分。引擎与最终结果的选择,是系统自动完成的。
董建成:首先在噪音处理这块,是我们自己做的,所以通过噪音的频谱以及响度可以大概区分出来是处于哪个环境,然后再去初选引擎。
每个引擎会对自动的对自己识别的结果给出一个评分,也就是置信度,分数越高表示结果越准确,所以置信度的高低决定了最终会选用哪个结果。
最终的结果还会跟用户修改后的文字进行对比,一并收纳进大数据库。若下次再在遇到同样的结果时,就能直接在我们这边直接给出更符合用户需求的文字。
董建成:引擎方提供SDK,其中包含了使用协议,而我们则是直接使用他们的API做了一个应用,即便是用于商业化也没有问题,微信就是这样做的。
董建成:主要是出于两点考虑,第一个就是之前所说的通过不断地收集修改前后的文字对比,来完善最终文字。另一点的话,就还是通过选择多种引擎来提供最为合适的结果。
录音转文字,之所以转化率低,不是因为引擎不行,而是录音这一块出的问题会比较多。很多引擎说自己的转化率能达到95%或者99%,其实也没错,不过前提是录音清晰的情况下。
用微信说话的时候,一般都是拿着手机讲,距离比较近,所以转录效果非常好。而正常录音的话,一般距离较远,环境也会更加复杂,这样一来就容易造成录音不清晰,噪音比较大。
未来,我们可能推出自动定向的录音麦克风,采用四点麦克风阵列,谁在说话时就调整阵列,只收集说话人的声音,算法我们已经验证过了,可行,效果也可以。
董建成:录音宝做到比较好的地方是能实时录音,能够显示录音时的地址,按时间轴存储文件,一件转录文字,也可以一键导出音频与文字。但录音笔实际上是偏重于日常生活,对于处理工作中一小时,两小时的长时间录音的话,它就不是那么方便。比如说,在一段很长的录音文件中,中间可能有一段录音是不需要的,但是却没办法删掉,只能导出来之后,手动修改。
而在我们的网页版上,就能在导出之前勾选你说需要的或者不需要的内容。而且能够就这每一句话听录音编辑修改转录出来的文字。另外一个就是,我们转录出来的文字是带有时间节点的,可以直接生成字幕格式。比如说,你要发布一个视频,那么你就不要再去配字幕了,直接就能用。
我们的定位主要是专业软件,能够多平台同步处理,只要录音文件上传到了云端,那么用户无论是在家还是办公室,只要打开这个软件,就能继续编辑,这样的话,就能不受限于工作地点与电脑。我们不是纯做技术,我们是底层技术研发和解决用户实际问题之间的桥梁,是为了将现有的技术真实用来解决用户实际需求的。
对于文字的编辑这块,我们也有独特的地方,比如说对每一句话的起点与终点划分,十分准确,而且是修改哪一行,就能播放哪一句声音。如果在文字内容修改时按回车,不仅文字内容会拆分,音频内容也会自动分段,依据是语音与文字对应的频率,还有时间点。其他基本的文字编辑功能与技巧与常有的WORD差不多。
董建成:将来发展是有可能替代速记的,但会很久,目前是帮助速记。
就目前的平台处理速度而言,一小时的文件,需要10分钟才能出稿。以后,会采用分段处理的方式,将一段录音分解成无数小段,同时转录,虽然会消耗服务器大量的计算能力,但能保证一小时文件一分钟左右完成转录。
从成本身而言,现在人力成本太高,请一个速记人员到现场除了要按字付钱之外,还得额外给出勤费,按日计算的。时间成本也高,现场速记可不是当场结束就能当场给出的,速记人员还得回过去校队一次,要不然很多东西是看不懂的,而录音给速记人员去转录文章的话,1小时的录音最快也得花一小时转录出来。
机器转录的话,目前基本上都是免费的,以后收费也可能是在精度,处理速度与存储空间上做文章,所以不用太担心。时间现在差一点的一小时文件可能上传,转录,导出算一起不到20分钟的样子,未来会更快。至于,转化率的问题,人工速记的精度并高,还是需要用户再次校对,那么随着机器转录的置信度的提高,需要用户校对的地方也只会越来越少。
人工速记定会被机器取代,这一点是可以确定的,但这个速记终结者是不是听道,就不要一定了,或许是引擎们的可能性更大。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。