登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 文献综述 > 计算机类 > 软件工程 > 正文

目标检测分割方法研究文献综述

 2020-05-04 21:19:27  

1.目的及意义


在人们的生活中,大部分信息都是通过视觉获取的。对于视觉图像信息的处理一直是人们研究的热点,特别是对目标的检测与分割更是应用在生活中的很多方面,比如说在医疗上可以通过技术手段对医疗影像进行识别与分割从而判断生理情况,在交通上可以对道路以及车辆进行识别,为无人驾驶做铺垫等。人们可以很容易的识别出一张图片上的物体,可对于计算机来说检测并分割图片上的信息却不是一件简单的事情。

目标检测与分割就是对一张图片的所有目标进行正确的检测同时还对每个实例进行像素级的分割。传统的目标检测方法对图像的特征提取和分类一般是分开进行的,在特征提取上多需要人工选取特征进行提取,人工选取的特征往往又是片面的,且对不同的识别对象需要不同的参数,很难做到一套算法适用在各个场景之中,并且很容易受到外界因素的影响,在识别的精度上面也不尽人意,可见传统的目标检测算法还是存在很多不足。深度学习于上个世纪五十年代被提出,虽然深度学习的算法虽然早就被提出来,但是由于受到硬件条件的限制,并没有得到广泛的重视。图像的处理是深度学习算法最早尝试应用的领域。且早在1989年,加拿大多伦多大学教授Yann LeCun就和他的同事提出了卷积神经网络。当时CNN在小规模图像处理上取得了很好的成功但在大尺寸图片上一直没有取得突破。随着人工智能的不断发展,特别是GPU集群的出现,使得需要大规模数据训练的神经网络得以实现。到了2012年10月,Hinton教授以及他的学生采用更深的卷神经网络模型在著名的ImageNet问题上取得了世界最好结果,使得深度学习对于图像识别的领域研究更进一步,神经网络深度学习的方法也被广泛的应用到图像处理领域上,并在图像处理领域取得了极大的成功。

目前在目标检测和图像分割方面已经研究出了很多算法。使用比较多的目标检测方法,传统的主要是Harr AdaBoost分类算法、方向梯度直方图HOG SVM支持向量机算法以及DPM算法。这些算法一般通过滑窗的方式,在图片上滑动窗口采样,判断被识别物体所属类别然后通过支持向量机对特征进行分类来判断目标类型。这些算法对于简单场景的测试可以表现出良好的准确性,但是对于复杂场景的识别效果就稍微差了一些,并且滑窗会对同一个区域进行多次重复计算,增大了计算量。基于深度学习的算法则有以R-CNN为基础演变而来的,比如fast R-CNN,Faster R-CNN,mask R-CNN,还有基于回归的YOLO、SSD算法等。这些算法在传统算法的基础上,解决了速度和训练集的问题,先预测可能是物体的候选区域,再在该区域上进行特征判断,训练集也不是通过人工特征而是通过深度学习的方式获取。在图像分割方面主流的方法有基于阀值分割、基于边缘分割、基于区域分割、基于图分割、基于深度学习的如FCN、超像素分割等。而2017年由何凯明等人提出的Mack R-CNN方法将目标检测与分割相结合,可以成功识别出不同物体并将其分割至像素级别。


{title}

2. 研究的基本内容与方案

{title}


对图像的目标检测与分割是目前研究的热点。而实例分割的难度在于要先对一张图片所有的目标进行正确的检测同时还要对每个实例进行分割。检测的目的是把每一个单个目标分类然后用bounding box标定出来,实例分割的目的是区分每一个像素为不同的分类而不用区别不同的目标。针对目标检测与图像分割的算法也是层出不穷。本文主要对目前已有的目标检测与分割的主流方法进行比较分析,并重点研究基于深度学习的目标检测与分割方法的实现。

传统的目标检测一般有如下几个步骤:图像预处理、特征提取、模式分类最后得到检测结果。每个算法都不可避免的需要对图像进行预处理,传统的方法通常将特征提取与模式分类分开处理,而特征提取则是最关键的一步,可以通过基本特征视觉特征等进行提取,模式分类一般使用人工神经网络、AdaBoost分类和SVM向量机。基于深度学习的目标检测与分割方法如R-CNN则是候选框提取(selective search) 特征提取(CNN) 分类器(SVMs)。简单来说就是先生成对边框的推荐,然后在预训练的 AlexNet 上运行方框里的物体。用支持向量机来看边框里的物体是什么。再在线性回归模型上跑该边框,在物体分类之后输出更紧的边框的坐标。也从此衍生出很多基于R-CNN改进的算法。至于图像分割的算法有基于阀值分割、基于边缘分割、基于区域分割、基于图分割、基于深度学习的如FCN、超像素分割等。实例分割的基本思路为目标检测 语义分割。先用目标检测方法将图像中的不同实例框出,再用语义分割方法在不同包围盒内进行逐像素标记。语义分割则是逐像素进行图像分类。我们将整张图像输入网络,使输出的空间大小和输入一致,通道数等于类别数,分别代表了各空间位置属于各类别的概率,即可以逐像素地进行分类。而Mask R-CNN通过添加一个与现有目标检测框回归并行的,用于预测目标掩码的分支扩展Faster R-CNN以实现同时对目标进行检测并进行像素级的分割。本文将会对其中一些算法进行分析比较,并选择性的实现。


剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图