基于CNN算法的图像目标检测设计与实现 文献综述
2020-04-19 21:07:52
1.1选题意义及背景
数据挖掘,一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。计算机视觉是一门研究如何使计算机“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。如何做到输入一张图片或者视频,计算机能很快的识别目标所在的区域并对目标进行分类,是一个很重要的问题。传统的目标检测算法,以滑动窗口为框架,分为区域选择、特征提取、分类三个步骤;基于深度学习的算法,分为区域提议与端到端两派。
1.2国内外研究现状
传统的目标检测算法一般是采用滑动窗口框架。主要分为三个步骤:
1.区域选择,由于目标可能出现在图像中任何位置,目标的大小、横纵比不确定,所以采用滑动窗口的策略对整幅图像进行遍历。这种算法因为需要包含目标所有可能出现的区域,所以时间复杂度高,产生的冗余窗口也较多;
2.特征提取,区域选择完成后,需要对区域内的特征进行提取。比如人脸检测常用的Harr特征;行人检测和普通目标检测常用的HOG特征等。由于目标形态多样性、环境的复杂性、光照变化、背景多样等原因,设计一个鲁棒的特征很难;
3.分类:对于提取的特征,选择相应的分类器进行分类,例如:SVM、Adaboost等。
基于深度学习的目标检测分为两派:基于区域提议的,如R-CNN、SPP-net、Fast R-CNN、Faster R-CNN、R-FCN;端到端(End-to-End),无需区域提名的,如SSD。目前来说,基于区域提名的方法依然占据上风,但端到端的方法速度上优势明显,后续的发展拭目以待。
传统的方法:一般速度不够快,RP值都不是很理想,简单说就是效果差。CNN方法的优势就是RP好很多,缺点很明显,速度慢。
基于深度学习的算法,在DPM方法遭遇瓶颈的时候,也有一部分人在研究如何利用深度学习进行目标检测。