基于HOG和多阶Zernike矩的人脸识别开题报告
2022-01-14 20:58:07
全文总字数:7913字
1. 研究目的与意义及国内外研究现状
人类进入21世纪以来,计算机和网络技术迅速发展,信息安全隐患日益突出。自911恐怖袭击以后,各国越来越重视社会的公共安全,信息识别与认证显示出前所未有的重要性,其应用领域之广,几乎可以包含社会的各个领域。
密码、令牌、证件等传统的认证方法存在一些局限性,如密码过于简单、忘记密码、伪造令牌、证件丢失、证件磨损等。传统的身份识别方法面临着越来越多的挑战,可靠性已大大降低。生物特征设计的认证系统解决了传统认证系统遇到的问题,人的面部就是一种非常突出的生物特征,可以用于唯一地识别一个人的身份[1]。因此,使用人的面部特征用于识别认证的想法产生了,基于人脸的生物识别系统也得到了实现。
近些年,人脸识别技术得到了广泛的应用。在公共安全领域,智能门禁、智能视频监控、公安布控、海关身份验证、司机驾照验证等都是人脸识别技术的典型应用;在民事和经济领域,各类银行卡、金融卡、信用卡、储蓄卡的身份验证,社会保险人的身份验证等具有重要的应用价值;在家庭娱乐等领域,人脸识别也具有一些有趣有益的应用,比如能够识别主人身份的智能玩具、家政机器人,具有真实面像的虚拟游戏玩家等等。
2. 研究的基本内容
方向梯度直方图(hog)作为一个优秀的纹理特征提取方法(用于提取局部纹理特征),常用于人脸识别系统,此方法的基本观点是:局部目标的外表和形状可以被局部梯度或边缘方向的分布很好的描述,即使我们不知道对应的梯度和边缘的位置;zernike正交矩常用于描述图像中目标物体的形状(用于提取全局形状特征),低阶zernike矩描述目标物体大致形状,高阶zernike矩对图像目标则有更加细节的描述,且其具有旋转不变性,并且可以构造任意高阶矩。本文研究拟将高阶zernike正交矩用于人脸识别并结合传统方法hog,hog用于提取局部纹理特征和zernike正交矩阵用于提取全局形状特征,融合全局、局部两种特征得到一个稳定的人脸识别系统。
hog方法[16][17][18][19]是基于对稠密网格中归一化的局部方向梯度直方图的计算。在实际操作中,将图像分为小的元胞(cells),在每个元胞内累加计算出一维的梯度方向(或边缘方向)直方图。为了对光照和阴影有更好的不变性,需要对直方图进行对比度归一化,这可以通过将元胞组成更大的块(blocks)并归一化块内的所有元胞来实现。归一化的块描述符就叫作hog描述子。(例如:将一张图片分为33的cells,每个cells内设9个梯度方向;cells内某个像素点的梯度可以由其上下左右四个像素点确定,左右像素确定水平梯度,上下像素确定垂直梯度,最终确定该点的梯度;每个cells得到91维的纹理特征,最终我们得到一个811维的纹理特征)
zernike矩是基于zeinike多项式的正交化函数,所利用的正交多项式集是1个在单位圆内的完备正交集。当计算1幅图像的zernike矩时,以该图像的形心(也称作重心)为原点,把像素坐标映射到单位圆内。zernike矩是复数矩,一般把zernike矩的模作为特征来描述物体形状(即一幅图像经某一维zernike矩阵处理后变成一个数字,数字越接近,形状越相似)。1个目标对象的形状特征可以用1组很小的zernike矩特征向量很好的表示,低阶矩特征向量描述的是1幅图像目标的整体形状,高阶矩特征向量描述的是图像目标的细节。在图像处理中,一个重要的问题是对目标的方向性变化也能进行识别。zernike 矩是一组正交矩,具有旋转不变性的特性,即旋转目标并不改变其模值。由于zernike 矩可以构造任意高阶矩,所以zernike 矩的识别效果优于其他方法。
3. 实施方案、进度安排及预期效果
首先,在yale数据集上上对本文人脸识别系统中的重要参数进行评估,以确定每个参数的最优取值.这几个参数包括zernike矩的阶数n,gabor滤波器的尺度s和取向o,hog的cell数ab和方向数c.
先用尺度s和取向o的gabor滤波器对图像进行处理,将输入图像I映射到不同的尺度和方向.使用高阶的zernike矩这些映射进行全局形状特征提取,得到一个(so)1维的形状特征;使用hog对这些映射进行局部纹理特征进行提取,得到一个(abc)1维的纹理特征;最后得到一个(abc so)1维的纹理、形状融合特征。必要时也可以加入低阶zernike矩提取形状特征,高阶zernike矩描述更加细节,低阶zernike矩描述大致形状。
yale数据集中15个人脸,每个人脸11张,共165张人脸图像。本文中,我们对每个人脸随机选择5张,共75张人脸图像作为训练集进行训练,提取其融合特征存入特征库;剩下的90张人脸图像作为测试集,提取测试图片相应特征,并在特征库上进行特征匹配,用于验证本文人脸识别系统的有效性。预期本文人脸识别系统在yale人脸数据集上可以达到95%以上的查准率。
4. 参考文献
1. li, x., uricchio, t., ballan, l., bertini, m., snoek, c. g., and bimbo, a. d., socializing the semantic gap: a comparative survey on image tag assignment, refinement, and retrieval. acm comput.
surv. (csur) 49(1):14, 2016.
2. alzubi, a., amira, a., and ramzan, n., semantic content-based image retrieval: a comprehensive study. j. vis. commun. image represent. 32:20–54, 2015.