基于mask r-cnn的图像分割文献综述
2020-04-29 18:49:57
1.1 研究目的及意义 在日常生活中,人类能够利用视觉系统得到大部分图像信息,这些图像是人类感知世界不可替代的信息载体。在计算机视觉应用领域,图像分割的研究对于进一步的图像融合、图像配准、图像分析等处理操作非常重要,但因为图像分割的复杂性,到目前为止还没有找到可以应用于所有领域的图像分割方法,也没有一个通用的评价标准。传统的图像分割方法特征提取难度大,并且难以满足实际的工业需求,仍有很大的提升空间,因此对图像分割算法的更进一步研究仍旧有十分重大的实际意义。同时大多数传统的图像分割算法着重于将某一特定目标或某一类目标与背景分离,因此算法中主要通过提取目标的纹理特征或灰度特征进行分割,导致迁移到其他类别的物体分割后效果较差,不具有普适性。随着信息时代的快速发展如对图像分割和目标检测的实时性都有一定的要求,而传统的图像研究方式将图像分割和图像目标检测分离,降低了实时性,本研究着重于实现对图像的实例分割,不仅要求对目标物体进行准确的检测(以矩形框的形式给出结果),同时也要求对目标进行像素级别的分割(以二进制掩码的形式给出目标前景区域),可应用于医疗肿瘤治疗和无人驾驶等领域,同时如何高效地完成图像实例分割也是图像处理领域中一个亟待解决的问题。 1.2 国内外研究现状分析 目前图像分割方法可大致分为以下四类: (1)基于阈值的分割方法 阈值分割法是最早的分割方法,其基本原理是根据根据图像的整体或部分信息选择阈值,把图像按照灰度级别划分。由于该算法直接利用灰度值,在计算方面十分高效,但也导致了其局限性,一方面,当图像中的灰度值差异不明显或者灰度范围重叠时,可能出现过分割后者欠分割的情况,另一方面,阈值方法不关心图像的空间特征和纹理特征,只考虑图像的灰度信息,抗噪性能差,在边界处的分割效果较差。 (2)基于边缘检测的分割方法 边缘检测分割法是通过检测边界把图像分割成不同的部分,在一幅图像中,不同区域的边缘通常是灰度值剧烈变化的地方,边缘检测法基于灰度突变进行图像分割,运算速度快,边缘区分准确,但存在抗噪性差的问题,在划分复杂图像时容易出现边缘不连续、边缘丢失或边缘模糊等问题。 (3)基于区域的分割方法。 区域分割法是通过连通相似特点的像素点,最终组合成分割结果,区域分割法主要利用图像局部空间信息,依照特定的相似性标准,依次把符合次标准的相邻像素点加入到同一区域,最终得到目标区域,在分割过程中种子点的位置选取非常重要。区域分割法不适于面积较大的图像区域,同时由于需要人工选取种子点导致无法应用于实时的处理。 (4)基于深度学习的图像分割方法 基于深度学习的图像分割方法是将样本图像数据来训练设定好的多层感知机的参数,从而得到最终的决策函数,进而利用获得的决策函数对图像像素进行分类从而得到分割的结果,根据具体方法所处理的数据类别的不同可以分为基于图像像素的神经网络分割算法和基于图像特征数据的神经网络分割算法。基于深度学习的图像分割方法基于巨大的互连结果和分布式的处理单元,具有很好的并行性和健壮性。 本研究拟采用深度学习的理论挖掘图像的深层特征,进而进行图像的实例分割。图像分割技术自20世纪70年代以来一直备受国内外研究人员的重视,但国内基于深度学习进行图像分割的理论研究起步较晚,2017年张明月提出Fast-SegNet网络结构实现图像的语义分割,虽然可以实现目标类别与背景的分割,但无法区分同一类别中的个体。国外基于深度学习的图像分割研究起步较早,2014年R.Girshick和J.Donahue等人在CVPR2014竞赛中提出了基于卷积神经网络的深度学习模型R-CNN,采用SelectiveSearch算法获得候选区域,利用深度卷积神经网络从候选区域提取特征,然后利用SVM分类器对特征进行分类识别,为图像分割的进一步研究奠定了基石;2015年R.Girshick领导的微软研究院团队先后提出了FastR-CNN和Faster R-CNN,对R-CNN进行了进一步的加速和优化,大大提升了检测效率;2016年P. O.Pinheiro等人在Fast R-CNN的基础上提出了DeepMask网络预测目标的二进制掩码区域从而进行图像分割,但其分割预测网络必须建立在得到目标检测网络结果的基础上,实时性较差;2017年何恺明等人提出了MaskR-CNN,在coco数据集上得到了像素级别的检测结果,对每一个目标物体,不仅给出其边界框,并且对边界框内的各个像素是否属于该物体进行标记。对图像分割的研究正处于方法和手段上的探索和发展的时期,大量图像分割的会议论文会刊登于一些模式识别、计算机视觉领域等著名会议和知名的国际期刊,如ICCV、ICPR、ACCV、CVPR等。 |
2. 研究的基本内容与方案
{title} 2.1设计的基本内容 本设计的基本内容是在现有的图像目标检测和分割理论的基础上,通过查阅大量国内外相关文献,对图像实例分割的相关算法和以及发展现状进行分析和研究,基于MaskR-CNN框架和深度学习的理论,提取图像的感兴趣区域并进行实例分割,在coco数据集上进行评测,最后在街景图像上应用。 2.2设计的目标 本设计的总体目标是要求所设计的算法能够自动提取图像中感兴趣类别的前景区域,并且用程序将算法实现出来,在coco数据集上进行测试,要求在测试阶段应达到以下基本要求: (1)应用该算法可以有效地挖掘图像特征,提高图像实例分割的准确率。 (2)在coco数据集上进行测试,该算法所提取特征可以有效地完成目标检测和实例分割任务,且准确率较高,对目标的遮挡等变化具有鲁棒性。 (3)算法运行时间不能过长,保证图像实例分割的时间效率。
2.3设计方案及措施 本设计是在MaskR-CNN框架和深度学习现有理论的基础上,利用Region Proposal Network网络生成候选区域,得到候选区域后利用进行分类和边框回归,同时基于FullyConnected Network网络进行二值掩码分割,利用coco数据集的已标注数据进行训练和评测,最后得到训练好的用于图像实例分割的神经网络模型并在街景图像上进行应用。实验流程如下: (1)对coco数据集进行归一化、统一大小等预处理; (2)基于RegionProposal Network构建候选区域; (3)基于ResNet对候选区域进行分类和边框回归; (4)基于FullyConnected Network对候选区域进行二值掩码分割; (5)在ubuntu平台上利用coco数据集进行整体网络的训练以及参数调优。 (6)利用调优后的整体网络模型对武汉市街景图像进行应用。
|
[1]何俊, 葛红, 王玉峰. 图像分割算法研究综述[J]. 计算机工程与科学, 2009,31(12): 58-61. [2] 张明月. 基于深度学习的图像分割研究[D].吉林大学,2017. [3]He K, Gkioxari G, Dollár P, et al. Mask r-cnn[C]//Computer Vision(ICCV), 2017 IEEE International Conference on. IEEE, 2017: 2980-2988. [4]Girshick R. Fast r-cnn[J]. arXiv preprint arXiv:1504.08083, 2015. [5]Ren S, He K, Girshick R, et al. Faster r-cnn: Towards real-timeobject detection with region proposal networks[C]//Advances in neuralinformation processing systems. 2015: 91-99. [6]Arnab A, Torr P H S. Pixelwise instance segmentation with adynamically instantiated network[C]//CVPR. 2017, 1(2): 5. [7]Bai M, Urtasun R. Deep watershed transform for instancesegmentation[C]//Computer Vision and Pattern Recognition (CVPR), 2017 IEEEConference on. IEEE, 2017: 2858-2866. [8]Bell S, Lawrence Zitnick C, Bala K, et al. Inside-outside net: Detectingobjects in context with skip pooling and recurrent neuralnetworks[C]//Proceedings of the IEEE Conference on Computer Vision andPattern Recognition. 2016: 2874-2883. [9]Dai J, He K, Sun J. Convolutional feature masking for joint objectand stuff segmentation[C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition. 2015: 3992-4000. [10]Dai J, He K, Sun J. Instance-aware semantic segmentation viamulti-task network cascades[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition. 2016: 3150-3158. [11]Dai J, Li Y, He K, et al. R-fcn: Object detection via region-basedfully convolutional networks[C]//Advances in neural information processingsystems. 2016: 379-387. [12]Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchiesfor accurate object detection and semantic segmentation[C]//Proceedings ofthe IEEE conference on computer vision and pattern recognition. 2014:580-587. [13]Hayder Z, He X, Salzmann M. Shape-aware instance segmentation[J].arXiv preprint arXiv:1612.03129, 2016. [14]He K, Zhang X, Ren S, et al. Deep residual learning for imagerecognition[C]//Proceedings of the IEEE conference on computer vision andpattern recognition. 2016: 770-778. [15]LeCun Y, Boser B, Denker J S, et al. Backpropagation applied tohandwritten zip code recognition[J]. Neural computation, 1989, 1(4): 541-551. |