基于深度学习的实例分割模型的设计与实现文献综述
2020-04-15 15:32:05
1.1 研究背景及意义
近些年,随着相关技术的逐年进步,人们进步重拾起机器学习(Machine Learning)这门多领域交叉学科。机器学习涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。同时,机器学习是人工智能(Artificial Intelligence)的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。
机器学习是人工智能研究较为年轻的分支,它的发展过程大致可以分为4个时期:①兴起时期,从20世纪50年代中叶到60年代中叶;②冷静时期,从20世纪60年代中叶到70年代中叶;③复兴时期,从20世纪70年代中叶到80年代中叶;④新时期,从1986年至今。
而深度学习(Deep Learning)作为机器学习的一个分支,是机器研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释如图像、声音、文本等数据。由于深度学习近几年在处理图像、视频、语音和音频方面带来了较大的突破,是目前人们研究的热点。
同机器学习方法一样,深度学习方法也有监督学习与无监督学习之分,不同的学习框架下建立的学习模型很是不同。例如,卷积神经网络(Convolutional Neural Networks,即CNNs)就是一种深度的监督学习下的机器学习模型,而深度置信网(Deep Belief Nets,简称DBNs)就是一种无监督学习下的机器学习模型。
从2017年开始,深度学习在计算机视觉(Computer Vision,即CV)领域有了新的发展。在深度学习关于CV的研究中,出现了如图像分类(诸如LeNet,AlexNet,VGG-16等等)、图像分割(如FCN等)以及目标检测(诸如R-CNN,Fast R-CNN,Faster R-CNN,YOLO等)这样的任务。而上述的任务可以通过同一个模型来完成,即实例分割(Instance Segmentation)。实例分割是一个包含了目标检测(不需要目标框)、图像分类以及图像分割的一个十分综合问题。而本文的主要目的是采用深度学习框架下的CNN模型来设计并实现一个简单的实例分割模型。
1.2 国内外研究现状
深度学习是近些年比较热门的学科。在2010年以前,每年的相关论文数量维持在50篇左右,而在2010年以后,相关论文的数量逐年增长,并在2018年国内发表了近5500篇与深度学习相关的论文。
关于实例分割的问题,经常会出现在一些国际会议上,如ICCV(International Conference on Computer Vision,即国际计算机视觉大会)以及CVPR(Conference on Computer Vision and PatternRecognition,即国际计算机视觉与模式识别会议)。在ICCV2017上,一篇关于实例分割的论文[3]一举夺得那场会议的最佳论文奖,同时Mask R-CNN也作为顶尖实例分割模型出现在人们的视野里。而在CPVR2018上,一种优于MaskR-CNN的实例分割框架PANet[2]吸引了人们的眼球。PANet对Mask R-CNN进行了优化,并在COCO2017实例分割挑战赛的实例分割任务中取得了第一名的成绩。