1
雷锋网按:本文来自腾讯优图,雷锋网已获授权。主要介绍了人脸识别系统的三大组成部分,并对手机相机能自动美颜的原因进行了深度剖析。
这是一个“看脸”的时代,一谈人脸技术,大家最为熟知就是人脸识别。该技术在金融、社保、教育、安防等领域表现活跃,成为AI技术领域的明星。优图微信公众号之前也重点介绍过优图人脸识别,本文主要介绍一些背后默默支持人脸识别的技术。欲了解优图人脸识别技术可参见《深度学习在人脸识别中的应用 ——优图祖母模型的“进化”》
一般而言,一个完整的人脸识别系统包含三大主要组成部分,即人脸检测、人脸配准以及人脸识别。三者流水线操作:人脸检测在图像中找到人脸的位置,接着人脸配准在人脸上找到眼睛、鼻子、嘴巴等面部器官的位置,最后人脸识别抽取特征与既有人脸比对计算相似度,确认人脸对应的身份。
图1 人脸识别流程
人脸配准(Face Alignment)又称人脸特征点检测与定位。人脸特征点不同于角点或SIFT特征点等通常意义上的图像特征点,人脸特征点通常是一组由人工事先定义的点(见图2)。根据不同应用场景,特征点有不同的数目,例如5点,68点,82点等。
图2 人脸特征点检测与定位中常用的目标检测点
除了在人脸识别系统中起关键作用之外,人脸配准技术也在3D人脸建模,人脸动画,人脸表情分析,人脸美化与虚拟化妆,人脸自拍动效等领域得到了广泛的应用。打个小广告,优图人脸配准跟踪技术性能卓越,主流手机单帧处理速度可达到3ms以内,已经在“天天p图-动效自拍”、“手机QQ-短视频”、“手机QQ-视频聊天”“手机Qzone-动效相机”等应用场景落地。
图3 人脸美化与虚拟化妆
和其他人脸技术类似,光照、头部姿态、表情等的变化,以及遮挡都会很大程度影响人脸配准的精度。但是人脸配准也具有自身特点,首先特征点描述了人脸的结构(轮廓和五官),人脸结构是完整稳定的,五官相对位置固定;其次,头部姿态、表情等变化造成的特征点位置变化明显。传统人脸配准研究需要一直尝试寻找更加精准的特征描述来表达这种既确定又变化的点的组合,再根据描述符选择适当的优化求解方法,从而定位人脸特征点。
最直接被采用的特征描述符是颜色、灰度,利用肤色的不同对人脸各部分进行检测定位。 稍复杂些可选择各种纹理特征描述,如基于类Haar纹理特征和Adaboost训练级联分类器的人脸配准。以上特征描述都没有考虑特征点之间的位置关系,因此不具备维持合理的人脸结构。主动形状模型(Active Shape Models, ASM)和主动外观模型(Active Appearance Model, AAM)可以同时表达纹理和形状(shape)两种特征。
二者的形状特征都由点分布模型(Point Distribution Model, PDM)来表达。图4为600张人脸图像中人脸特征点的统计分布图,红点表示各特征点的均值。ASM的每个特征点的纹理特征是分别表示的,通过计算特征点周围邻域纹理信息生成每个特征点对应的响应图(Response Map)。图5中蓝色圈定区域用于计算响应图,红点指示实际人脸特征点位置。AAM使用整体人脸来描述纹理特征,通过将人脸特征点位置变换到标准形状上,得到与形状无关的人脸纹理,并基于主元分析方法对形状无关的人脸纹理进行建模。
从2006年开始,深度神经网络已经逐步在计算机视觉、语音识别和自然语言处理等多个领域取得了前所未有的成功,同样也给人脸配准研究带来了习习春风。学者们无需再挖空心思构建各种繁琐复杂的人脸描述符了。目前学术界工业界比较认可的深度人脸配准方法有两类:级联卷积网络人脸配准(Cascade CNN) 和多任务深度人脸配准。
如图6所示,Cascade CNN包含三级,每级包含多个卷积网络。第一级给出一个初始点位置估计,在此基础上后两级精细调整特征点位置。多任务配准将配准与其他相关人脸属性的训练同时进行。与脸部特征点相关的属性包含头部姿态,表情等,比如笑脸的嘴部很可能是张开的,正面脸特征点则对称分布。多任务有助于提升特征点检测定位精度。然而不同的任务会有不同的收敛速度和难度,训练难度加大。目前学界提供了两种解决方案调整不同的任务的训练进程:任务提早终止准则(task-wise early stopping criterion)和参数动态控制机制。
图6 Cascade CNN 网络模型
学术界人脸配准的研究日新月异,工业界产品应用对技术的要求也越来越高,且不同应用场景对人脸配准提出了不同的要求。
人脸识别业务的核心问题是人脸图像像素之间高层语义的对齐,即人脸关键特征点的定位。错误的特征定位会导致提取的人脸描述特征严重变形,进而导致识别性能下降。为了更好地支持人脸识别,我们加大了人脸框的变化的范围,以减少对人脸检测框大小的依赖。人脸特征点我们选择五点,既保证一定的人脸结构描述能力,又减小了配准误差对人脸识别的影响。
图7 人脸识别
美妆需要人脸特征点达到超高精度定位,例如眼妆中的眼线睫毛,只有定位够精准,才能达到自然贴合的美妆效果。为了提供精度,我们采用了级联模型,先粗略定位人脸面部特征,再对五官进行精细化定位。
图8 智能美妆
人脸自拍动效应用处理移动端视频,对配准的处理速度要求严格。传统人脸配准技术不具备判定跟踪是否成功的能力,为避免跟踪过程中出现跟丢的现象(跟踪到非人脸区域),必须依赖耗时较长的人脸检测,我们的人脸配准增加了人脸判定功能,减少对人脸检测的依赖。另外我们采用了瘦长型深度神经网络,并应用SVD分解进行模型压缩和算法加速,算法模型大小控制在1M,主流手机上的处理时间仅需3ms。模型大小和计算速度均为业界最高水准。
视频1 人脸自拍特效
优图实验室不断跟进技术发展趋势,更新版本。优图人脸配准技术从传统方法迁移到深度学习方法,从最新学术研究成果到最佳工程取舍,我们经过多轮的迭代更新,做了大量的创新和尝试。于2013年4月发布了人脸配准1.0版本,粗略定位人脸五官,4个月后精准定位的2.0版本也成功发布,并应用在趣味类产品中。之后的版本3.0精度大幅提高,同时在美妆产品中落地。4.0版本开始应用深度学习方法,精度得到了进一步提高,平均精度超过了人工水平。今年5月我们发布的最新版本5.0采用深度多任务学习方法,在速度和深度网络模型大小都得到了大幅优化,主流手机帧率超过200,模型1M,并自带人脸判定功能。简介中提到的人脸自拍动效应用就得到了此版本的支持。
未来我们一方面着力提升已落地应用的用户体验,另一方面也积极探索新的应用场景。目前自拍视频的人脸配准跟踪效果仍存在不足。要解决此问题,提升用户体验依赖于进一步研究如何提升人脸配准的稳定性和精准度。除本文已提到的应用以外,优图人脸配准技术还可以应用于智能门禁系统、互联网金融核身、直播行业等众多领域。在新的应用领域,研究人脸配准技术如何满足新需求是我们必将面对的另一课题。
雷锋网注:本文由雷锋网发布,如需转载请联系原作者,并标明出处和作者,不得删减内容。
雷峰网版权文章,未经授权禁止转载。详情见转载须知。