南京航空航天大学
毕业设计(论文)开题报告
题 目
基于树结构的人脸检测算法研究及实现
学 院
计算机科学与技术学院
专 业
软件工程
学生姓名
学号
指导教师
职称
副教授
毕设地点
计算机科学与技术学院
2016年 2 月 28 日结合毕业设计(论文)课题任务情况,根据所查阅的文献资料,撰写1500~2000字左右的文献综述:
研究内容与意义:
人脸检测,是指对于任意一幅给定的图像,采用一定的算法策略对其进行搜索以确定其中是否含有人脸,并返回人脸的位置、大小和姿态得一种技术手段。人脸检测最初起源于人脸识别技术,一个完整的人脸识别系统包括人脸检测、特征提取以及匹配识别三大基本过程。因此,人脸检测系统也是目前人脸识别系统中一个关键环节,人脸检测算法的精度直接影响着人脸识别系统的性能。
人脸检测是一个复杂的模式检测问题,其难点主要有两个方面:
人脸本身的内在变化:
(1)人脸具有相当复杂的细节变化,不同的外貌、不同的表情将对检测结果产生不同的影响;(2)人脸的遮挡,如眼镜、头发和头部饰物以及其他外部物体同样可能对检测结果产生不同的影响;
外在条件变化:
(1)由于成像角度的不同造成人脸的多姿态,如平面内旋转、深度旋转以及上下旋转,其中深度旋转影响较大;(2)光照的影响,如图像中的亮度、对比度的变化和阴影等;(3)图像的成像条件,如摄像设备的焦距、成像距离,图像获得的途径等;
因此,解决此类难题也是人脸检测算法的一个关键技术问题。基于树结构的人脸检测算法是一种利用树模型(tree model)进行人脸检测的高效率算法,能够同时对图像进行人脸检测、姿态估计和关键点点标记三组操作,并且在这三个操作中的效率、完成度和识别率都有较大改进。
随着科技的发展,人脸识别成为最有潜力的生物身份验证手段,而人脸检测作为其中的关键一环,其应用背景已经远远超出了人脸识别系统的范畴,在基于内容的检索、数字视频处理、视频检测等方面有着重要的应用价值。
课题当前研究状况:
国外对人脸检测问题的研究很多,比较著名的有麻省理工大学,卡耐基梅隆大学等;国内的清华大学、中科院计算所和自动化所等都有人员从事人脸检测相关的研究。随着人脸检测研究的深入, IEEE的FG、ICIP\CVPR等重要国际会议上每年都有大量关于人脸检测的论文,由此可以看到世界对人脸检测技术的重视。目前较为成熟的有基于特征的人脸检测算法、基于图像的人脸检测算法、基于活动轮廓的单\多人脸检测算法等。而openCV中也有大量的开源人脸检测算法源码,这些都可以作为对比实验对象来判断基于树结构的人脸检测算法的效率和识别率。
基于树结构的人脸检测算法概述:
加州大学欧文分校的Xiangxin Zhu博士所提出的基于树结构的人脸检测算法,基于树结构和数据共享池的混合模型,将人脸检测、姿态估计和关键点标记三个模块结合成为一个统一模型。在算法中,Zhu博士将每个特征点作为人脸的一个部分,从而采用拓扑算法进行捕捉,并发现树结构在这一过程时能够非常有效的捕捉到人脸的姿态变化,并且易于优化。在与已进行商业应用的人脸检测算法(如Google的Pisaca和face.com)的对比实验中来看,基于树结构的人脸检测算法在效率和准确率等指标中并不逊色于这些经过数十亿次检测训练的商业系统。
人脸检测(Face Detection):主要通过有区别的人脸进行训练实现扫描窗的分类,其中最普遍使用的是Viola Jones的openCV开源程序,而本算法也采用Discriminatively Trained方法,从而提高效率和准确率;
姿态估计(Pose Estimation):通常应用于视频数据流中,在实验室可控环境中加以解决,如Multi-PIE数据库或FERET基准环境中,大多数模型使用的是显式3D模型或2D视图模型,而基于树结构的人脸检测算法使用的是数据共享池视图基础模型。
关键点标记(Facial Landmark Estimation):最早的特征点标记算法可以追溯到AAM(Active Appearance Models)模型,如今多集中在CLM(Constrained Local Models)模型中。值得注意的是,所有这些工作都假定在一个连接密集的空间模型中,需要近似匹配算法。而通过使用树模型,我们可以使用有效的采用动态规划算法找到全局最优的解决方案。
基于树结构的人脸检测算法详解:
记:一个具有数据共享池的混合树结构为V,每个关键点是V的一个部分;
每个树为线性参数树状结构Tm =(Vm, Em),m代表一个部分且Vm ⊆V;
图像为I,且li = (xi, yi)为每一个像素点的位置,则记L = {li : i ∈ V };
由此,算法可表述为:
其中,(2)式含义为:对每个特征点i的表面信息储存在wim 中,并用φ(I, li)表示从图像I中将像素点位置li的特征向量提取出来,并对所有信息进行综合。(3)式含义为:dx = xi − xj 和 dy = yi – yj相对于第j个特征点的第i个特征点的位移,每一个同类项可以看作一个变量,而(a, b, c, d)就可以当作这个变量的位置和参数,从而实现姿态估计。
由此,我们可以将特征点的表面信息和姿态结合起来作为面部检测算法,并用αm作为标偏置来修正这一计算过程。
算法实验对比:
在对图像全体面部检测的对比实验中,本算法的精确度比Star Model,Multi DoG
等算法模型精确度高,并远超openCV中Viola Jones的开源程序,而在对图像的单脸检测这一环节中,本算法同样具有较高的精确度,并且接近Google的Pisaca和face.com两个商用级人脸检测程序。
在姿态估计这一环节中,在MultiPIE条件下本算法的精确姿态判断是所有实验算法中最为精确的,达到91.4%,而当容错率在±15◦的条件下,本算法的精确度可以达到100%。
由此可见,基于树结构的人脸检测算法在人脸检测和姿态估计的精确度上存在优势。
算法相关内容:
Multi-PIE:人脸检测算法的进步与人脸图像数据库的各方面因素有着密切的关系。
CMU PIE在的姿态和光照条件下的人脸数据库在国际处于领先地位,但是,CMU PIE存在一定缺陷,其主体数量有限。因此,在这一前提下建立的CMU Multi-PIE数据库包含了337个实验对象,以及15个不同姿态和19个不同光照条件下的人脸图像。因此,其作为人脸检测算法的实验数据库将会对人脸检测实验有所帮助。
Discriminatively Trained Part-Based Models(DPM):Felze