您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
业界专题 正文
发私信给刘芳平
发送

1

为盲胞读书:如何把千万人的语音汇聚成一本书?

本文作者: 刘芳平 2014-11-06 20:38
导语:“The Voice Donor:为盲胞读书“是由微信市场发起的一个创意公益项目,通过众包模式让众多用户参与进来贡献自己的语音,最后汇聚成一本本的语音读物捐献给盲人同胞。

为盲胞读书:如何把千万人的语音汇聚成一本书?

“The Voice Donor:为盲胞读书“是由微信市场发起的一个创意公益项目,通过众包模式让众多用户参与进来贡献自己的语音,最后汇聚成一本本的语音读物捐献给盲人同胞。这种新颖的公益方式需要强大的技术来完成,笔者采访了项目的技术支持负责人刘学梁,带你了解为盲胞读书背后的技术故事。

这个项目一开始由微信市场发起。早期,声音捐献数量不大,因而后台能够支撑,而随着越来越多的声音捐献者参与进来,原本的后台及人工审核的机制已经不能够支撑这个参与量级,因而找到北京的技术团队提供支持。“因为他们技术上遇到一些困难,而我们这边正好有语音技术,又是一个公益项目,所以我们都很热心的帮忙,”刘说。从图书切割、下发到语音收集和筛选,最终组装成一本语音读物,都由刘学梁领导的北京团队来完成。

如何筛选和切割一本书?

技术团队的工作之一是把电子书切割成80-120字的片段,存进数据库,并在用户请求时下发给他们。但在此之前还需要经过一个严格的图书筛选过程,选出适合做成有声读物的书籍,取得图书版权后才能进入制作流程。“我们对一本书的质量控制很严格,首先要选取一本合适的读物,还要专门的同事来检验这本书的质量,之间会有很多反馈,质量通关后才会往上放,整个过程比较漫长。”

为盲胞读书:如何把千万人的语音汇聚成一本书?

图书切割也是一个需要技术和技巧的过程。刘学梁说:“我们之前采用全自动化切割,根据标点符号和段落来划分,尽量让每一段长度合理并把说语义关联的字句放在一起,这些都是通过算法来完成的。但采用这种方法遇到一个问题:从出版社得到的书是PDF格式的,PDF转TXT会导致排版上乱掉以及一些页面的缺失,于是我们后来又在自动切割的基础上加了一轮人工切割,对出版社、目录、注释等信息进行处理。切割的长度在80-120个字之间,切完片段会存到数据库,有用户请求时从数据库下发。如果下发了用户没读就会发给另一个人读。”

如何进行语音筛选?

语音筛选是团队遇到的最大技术难题,这里面需要用到语音技术,把好的语音和不好的语音区分开来,比如说有人念的不好或是不完整,噪音太多需要过滤等等。语音筛选是一个与文本对比的过程。

“通常一个语音过来,先经过特征提取,再经过解码器,取一个最好的结果出来,这是一个类似语音识别过程。但是筛选是先有了语音和对应的文本,再要计算语音和文本之间匹配关系,这需要先用文本构建出一个搜索网络,然后在搜索网络里面计算出一个得分,再根据这个得分判断这段语音好还是不好,有没漏读或错读。如果读的比较平滑准确就是一段好语音,它会被筛选出来作为语音读物的材料。这与普通话等级考试有些类似,同样都要匹配文本,看你读的是否准确平滑。”

为盲胞读书:如何把千万人的语音汇聚成一本书?

语音筛选有一个打分的过程,通过这个过程对语音的质量进行评估,实际结果显示,女性的语音质量通常要比男性高,“她们更加自信,读得也更加认真”。而项目的大部分(估计有90%左右)参与者都是女性,结果是一本书大部分都是女性的声音。

总体上后台好的语音还是占大多数,差的语音也存在。哪些因素会导致语音质量不高?主要有三点:

  • 手机质量不好,采集的语音质量就会较差,这部分会放弃掉;

  •  之前有一个bug导致录入语音时文本被遮挡,这样读出来的语音不完整;

  • 很重的口音,或者有些人离话筒比较远,也会导致语音质量不高。

刘学梁说他们非常珍惜每一段语音,尽量不浪费。一个片段只会投放给一个人,只有当这个人没有读或是读的质量真的有问题,比如有缺损,才会筛除并让发给下一个读。

众包制作的有声书,质量能比得上专业的吗?

为盲胞读书:如何把千万人的语音汇聚成一本书?

简单的回答是:不能,但已经接近了。但是,众包读书还有自己的优势和公益的性质。众包的有声书由成百上千人的语音构成,而且这些人都不是专业朗读者,如何提高质量呢?

“如果是专业朗读者去读这些书的话,质量自然会更高一些,但是为盲胞读书采用众包模式的优势是速度会快很多,一个人一天读不了一本书,但几万人一起读的话一天就能读好几本,长期下来就能积累很多书。对于每个人声音不同这方面,习惯了之后其实还好,把不同人的声音连接时我们也会做一些处理,使它们音量一样,让前后两个人的声音区分度不会太大,同时把语音的前后空白处剪切掉,听起来会更流畅。另外我们在进行文章切分时会尽量让一段话保持完整,由一个人来读,这样语音之间断层也是段落之间的区分。而且很多人会连续读好几段,我们也会优先考虑把同一个人读的段落放在一起。”

实际上,为盲胞读书的用户质量非常高。比如有一些片段包含德文、法文等小语种,多数人都不懂,会读得很差,但也有很多用户能把它流畅读出来。笔者在公众号后台亲身体验后发现,很多语音都读得非常专业。

结语

一本书总会有一些段落直到最后还是没有读完,这个时候团队成员会自己上马把它们读完,尽快集结成一本有声书。

不同的书读的速度也不一样,快的一两天就能读完(团队会同时下发好几本书),一般是名人领读较受欢迎。

似乎过程很麻烦,质量也未必比得上专业朗读者制作的,但这种方法制作出来的有声书已经不仅仅是一个商品,它包含了成千上万人的爱心在里面。为盲胞读书(公众号:voicedonate)已经拥有超过50万参与者,截止目前已制作出超过100本有声书,有越来越多的盲人同胞从中受益,希望你也能参与进来。

雷峰网原创文章,未经授权禁止转载。详情见转载须知

分享:
相关文章

编辑

微信:liu_fangping
当月热门文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说