图像识别，怎样守护网络直播的底线？| 雷锋网公开课

本文作者：小芹菜

2016-06-01 19:18

导语：直播火爆的背后，都存在哪些问题？机器如何识别小黄图？

今年8月，雷锋网将在深圳举办一场盛况空前，且有全球影响力的人工智能与机器人创新大会。届时雷锋网将发布“人工智能&机器人Top25创新企业榜”榜单。目前，我们正在拜访人工智能、机器人领域的相关公司，从中筛选最终入选榜单的公司名单。如果你也想加入我们的榜单之中，请联系：2020@leiphone.com。

雷锋网按：本文整理自图普科技李明强在雷锋网硬创公开课上的演讲。李明强是图普科技创始人& CEO。原腾讯T4技术专家，腾讯资深项目经理，QQ邮箱项目负责人，微信立项创始人之一。

图像识别，怎样守护网络直播的底线？| 雷锋网公开课

| 直播火爆的背后，都存在哪些问题？

1、直播内容监管存在什么困难？

第一、网络直播规模庞大，人工审核成本高

2015年直播平台接近200家，用户数量已经达到2亿，大型直播平台每日高峰时间会有数万个直播“房间”同时在线，用户数可达千万人次，如果全部用人工对1万路视频同时进行审核，为了保证“无漏网之鱼”，至少需要数百人同时工作，并且每位工作人员需要配备1-2台监控设备。

比如映客现在在审核上投入的人力是800多人，占用了7000平方米的审核基地，24h的人力审核。其实直播视频内容的违规比例占比不高，仅0.04%，甚至更低，但为了做到“无漏网之鱼”，企业需要投入大量的人力、物力和财力进行监管，运营成本压力增加。

第二、直播流量聚焦夜晚，人工审核效率低

网络直播白天跟晚上的“房间数”不同，目前，白天直播流量峰值是数百路视频，晚上可以飙升到数千路。但“三班倒”的审核人员，夜晚疲劳，人眼识别精确度降低，出现误判漏判的概率上涨，审核效率降低，难以达到网络直播的内容监管需求。

第三、主播实名及直播实时验证难

直播平台注册简单，主播规模扩充迅速，如果实名验证完全依靠人力审核，人力成本增加，难以做到真实有效的审核；再加上一些稍微大一些的直播平台高峰期时期会有上万人，如果每次主播直播时，都验证是否属于本人在直播，这又增加一部分人力成本，对于一些中小型直播创业企业而言，运营难度上升。

2、国家对于监管出台的政策，对直播平台有什么影响？

（1）从直播平台本身来说，能够促进直播平台加强自律：例如部分直播平台规定主播需实名验证、满18周岁；直播内容存储时间不少于15天；所有直播房间内添加水印；对于情节严重的主播将列入黑名单、对直播内容进行24小时实时监管等。

（2）从直播平台的发展来说，对于大型企业的发展是比较有优势的，大型直播平台对监管成本上升的承受能力比较高，中小型视频直播平台将在监控审查成本的提升环境下挑战增大。

（3）从直播平台的内容发展来说，依靠色情、暴力等擦边球的“激进”内容来吸引用户的道路越来越不可行，未来受欢迎有潜质的主播也许会更加偏向专业化。

| 机器是如何审核直播的？

1、审核直播的方式都有哪些？

传统的图像审核方式主要有两种：

纯人工审核：企业员工“三班倒”工作；
传统智能审核：人眼鉴别该图片或视频是否违规；传统的智能审核：如识别色情图像，基本是通过图片 RGB 值识别肤色比例；通过建模识别异常动作、敏感部位等。

但是这两种审核方式都存在较大的漏洞，“三班倒”的人工容易导致审核效率低、误判漏判多等主观性问题；传统智能识别色情图片准确率低、经常误报等。而且这三种审核方式对近两年热门的视频直播审核需求更难以满足。

现在主要是利用机器识别结合人工审核的模式进行审核，机器识别是依赖于人工智能领域最新的算法:深度学习算法,通过模拟人脑神经网络,构建具有高层次表现力的模型,能够对高复杂度数据形成良好的解读。通过大数据持续训练、频繁的迭代,不断提高鉴黄精确度，有效节省人工复审的工作。

2、审核直播内容，机器都做了什么？

（1）机器审核直播内容是否涉黄、违法

机器主要是用来专门判断哪些图片是色情的或者需要被过滤掉的违法信息，它在这方面的智能程度是可以替代人力的，经过机器审核后的数据，会分为“确定”和“不确定”的两个部分，确定部分的可以达到99.5％的准确率，不确定的会诚实地告诉客户，由客户做出决断。不确定的部分可能只占到审核总量的1～2%，原先需要100个人审核，经过机器识别服务，就可以只用1～2个人来完成了。

图像识别，怎样守护网络直播的底线？| 雷锋网公开课

（2）机器识别的工作原理

图像识别，怎样守护网络直播的底线？| 雷锋网公开课

简单来说，可以把深度学习理解为一个空白的人脑，这些大量的数据就是灌输进来的经验。深度学习是属于机器学习的一个范畴，是最新的机器学习的技术，主要体现在“深度”这两字上。

深度学习可以理解为“深度机器学习”的意思，因为普通或者传统的机器学习，在神经网络的复杂度和层数没有像现在这么高，深度学习就是一层一层的层数变多了，层数和复杂度都加深了许多，所以现在才会叫做深度学习。

譬如说你想训练一只狗，狗做对了你就给它激励，为它或者做错了你就惩罚它，那久而久之它就知道哪些是正向、或负向的激励，然后就明白自己哪些事情是自己应该去做的，对于错误的事情的想法也会逐渐被抵消。

当我们把大量的色情、性感、正常的样本的属性告诉深度学习的引擎，然后让引擎不断学习，然后把他们做对的进行奖励，做错的就惩罚，当然这些奖励和惩罚都是数学上的，最后空白的脑袋就会学成了一种连接的模型，这种模型就是为了鉴别色情与非色情而生的。

机器识别原理的图像识别技术是如何像人脑一样认识、学习图像特征的呢？

其核心是深度学习理论(Deep Learning)。深度学习就是人工神经网络(Artificial Neural Network，以下简称 ANN)。要了解 ANN，让我们先来看看人类的大脑是如何工作的。

图像识别，怎样守护网络直播的底线？| 雷锋网公开课

（人脑的视觉处理系统 via：Simon Thorpe）

上图所表达的，就是人理解外界视觉信息的过程。

从视网膜(Retina)出发，经过低级的 V1 区提取边缘特征，到V2 区的基本形状或目标的局部，再到高层的整个目标（如判定为一张人脸），以及到更高层的 PFC（前额叶皮层）进行分类判断等。也就是说高层的特征是低层特征的组合，从低层到高层的特征表达越来越抽象和概念化，也即越来越能表现语义或者意图。

深度学习，恰恰就是通过组合低层特征形成更加抽象的高层特征（或属性类别）。然后在这些低层次表达的基础上，通过线性或者非线性组合，来获得一个高层次的表达。此外，不仅图像存在这个规律，声音也是类似的。

下面来看看深度学习的简易模型：

图像识别，怎样守护网络直播的底线？| 雷锋网公开课

传统的神经网络与深度神经网络

深度学习的一个主要优势在于可以利用海量训练数据（即大数据），在学习的过程中不断提高识别精度，但是仍然对计算量有很高的要求。而近年来，得益于计算机速度的提升、大规模集群技术的兴起、GPU 的应用以及众多优化算法的出现，耗时数月的训练过程可缩短为数天甚至数小时，深度学习才逐渐可以用于工业化。

对于开发团队来说，做该领域产品的困难在于如何获取大规模已标注数据、集成有 GPU 的计算集群以及针对自己的项目调参数，团队需要不断地输入新数据,持续迭代以提高机器识别准确率。

那么为什么之前机器学习没有爆发，只是在这一两年开始爆发？

因为机器学习需要同时满足三个条件：

1、海量的数据（大家都知道互联网发展那么多年，已经积累了大量的数据了）；
2、高性能计算的能力（显卡和GPU因为摩尔定律的发展，也已经积累了很多年）；
3、深度学习的算法（是在2012年被一次imagenet的比赛，被业界广泛注意到，隆重地登上了历史的舞台）

3、直播数量那么大，如何审核/推荐？

1）做图像识别的公司有哪些，竞争差异在哪里？

在智能审核垂直领域的有腾讯优图、阿里绿网，他们主要为自身的平台客户提供审核服务，不属于第三方。

2）目前服务的直播客户包括花椒、在直播、映客、17直播、悟空TV等等。

这里主要分为两种服务类别：

标准审核服务：包括鉴黄、暴恐识别、广告识别、敏感人脸过滤等；

个性化定制服务：根据客户的实际需求，定制专属的图像识别整体解决方案，譬如针对特定场景（抽烟、喝酒、打架、自残等）的审核，人脸识别（主播颜值、风格、表情、年龄、性别、其他外在特征等）、场景识别（主播直播时所在环境）、物体识别（直播平台中出现的物体）等各种图像的识别。

直播平台的个性化推荐，是在传统推荐系统的基础上，融入图像识别技术，以用户的即时兴趣为基础，智能推荐符合用户心理预期的内容。

比如在场景的精准推送上，可以基于人脸、场景、商品识别与分析技术，抓取视频内的价值信息，实现最精准的内容匹配；

在主播风格推荐上，可以自动分类不同风格的男神女神，根据用户平台资料和兴趣，智能推送偏好类型；

还可以建立颜值推荐系统，基于人脸识别，机器自动将高颜值主播推荐给用户等。

图像识别，怎样守护网络直播的底线？| 雷锋网公开课

| 直播很火，机器学习同样很火

1、除了审核直播，机器学习还能做什么？

除了帮助直播平台规避内容风险，机器识别还可以通过以下几个形式优化视频直播平台：

第一、通过图像识别对主播进行分类，可以得出直播平台的内容是否健康，或者给主播打上标签，平台是否需要培养和扶持一些比较稀缺、受欢迎的主播。

第二、深挖直播平台的图像识别云服务，例如主播正在做什么，唱歌、跳舞、抽烟、化妆、睡觉或其他。在将来全民生活直播，可以挖掘的信息量就更大，包括万事万物的识别，视频内出现的车、手机、玩具或其他的，这都是反映了一个人的生活习惯、行为习惯，机器可以根据用户偏好，智能推送相应直播视频，帮助直播企业更好地进行用户互动运营。

第三、直播的视频内发出的所有图像信息，包括人物、地点、活动、事物、背景等，在以人工智能技术作为基本支撑下，可以帮助用户智能搜索所需信息，像KTV、餐厅、教室等，这些都是可以提高产品和用户体验，或者企业想将这些信息流量变现，均可按企业需求定制。

第四、基于人的智能搜索，帮助直播平台把用户和内容串连起来，把相似的主播串连起来，让用户找出自己想要的人物形象。例如用户可以描述自己梦中情人的形象然后进行智能搜索，或上传自己的照片即找出与自己最有夫妻相的主播等，这都是目前同质化直播平台没有做到的事情。

图像识别，怎样守护网络直播的底线？| 雷锋网公开课

| 今年8月，雷锋网将在深圳举办“全球人工智能与机器人创新大会”（简称：GAIR），机器学习的未来趋势怎么看？

1、凯文凯利说过：“很快人工智能就讲变成一种日用品。智力会像电力一样通过网络传输。” 这意味着，人们将生活在被人工智能所包围的世界里。

应用上，建立更加实用的学习系统，特别是开展多种学习方法协同工作的集成化系统的研究，机器学习将会深度融合到各个行业，人工智能+的时代正在开启。

虽然短时间内人工智能无法理解人类的情感，在未来的五年内，人工智能技术领域的创业企业将会倍增，开发出一些功能性的应用，人工智能将在这些专业功能上辅助人类或直接取代人类。例如人工智能可以为你推荐新闻，帮你扫地，帮你驾驶汽车，甚至帮你管理健康状况等。五年后，将会出现一批相对成熟的垂直领域的人工智能企业，人工智能与传统企业的结合更加紧密。

2、技术上，发展和完善现有的学习方法，同时开展新的学习方法的研究，针对某个或者某类应用的特定的学习方法将会不断涌现，数据管理得到更多的关注，数据的价值将继续扩大，对于机器学习结果的解释会逐渐受到重视。

编者注：以下是雷锋网精选公开课上的几个精彩问答分享——

1、利用机器识别是如何对直播中的非法视频进行处理的呢？

通过间隔截图，关键帧截图之类的对视频进行处理，因为监控是旁路的，而且可以做到峰值每秒5k并发，1s-2s返回，所以不会影响实时性。在检测到了相符信息后，机器会实时反馈结果给客户。至于是屏蔽、删除或者禁播等方面的处理，主要是看业务方，可以选择由机器自动处理或者人工介入。

2、图像识别应用在智能医疗领域是怎么的？

图像识别不仅在互联网行业有应用，在其他行业的应用也是非常广泛的。

比如在在智能医疗领域就有专门的小领域来专门做医疗影像处理，就像是可以通过患者的如肝脏的影像，去判断有没有癌变；如眼睛的影像，判断有没有白内障等; 更细的还有，到血管的图像，去判断有没有阻塞等。另外在一些传统领域上的应用，例如基于图像搜索，可以帮助商标局建立商标库，新注册的企业就可以自动搜索是否相同的商标被注册了；基于物体识别，可以协助铁路交通部门自动检测线路的电闸是否损坏、掉漆来判断是否需要更换；还可以帮助电视台做广告监播，监测某个品牌露出的时间、某个时间上某个商标展示的时间长度等。

图像识别，怎样守护网络直播的底线？| 雷锋网公开课