基于Tensorflow的R-FCN目标检测算法设计文献综述
2020-04-14 16:26:49
1.1 研究目的及意义
随着自动驾驶汽车、智能监控摄像头、面部识别以及大量对人有价值的应用出现,快速、精准的目标检测系统市场也日益蓬勃。这些系统除了可以对图像中的每个目标进行识别、分类以外,它们还可以通过在该目标周围绘制适当大小的边界框来对其进行定位。这让目标检测技术较传统计算机视觉处理技术——图像分类而言,难度上升了不少。目标检测在相关应用系统中起着非常重要的作用,尽管已取得巨大进步,但目标检测技术上的挑战依然存在。因此目标检测算法设计成为了人们面临的亟待解决的问题。
Google在2015年年底开源了内部使用的深度学习框架TensorFlow。与Caffe、Theano、Torch、MXNet等框架相比,TensorFlow在Github上Fork数和Star数都是最多的,而且在图形分类、音频处理、推荐系统和自然语言处理等场景下都有丰富的应用。最近流行的Keras框架底层默认使用TensorFlow,著名的斯坦福CS231n课程使用TensorFlow作为授课和作业的编程语言,国内外多本TensorFlow书籍已经在筹备或者发售中,AlphaGo开发团队Deepmind也计划将神经网络应用迁移到TensorFlow中,这无不印证了TensorFlow在业界的流行程度。使用TensorFlow的任何人都可以在ImageNet或Kaggle竞赛中得到接近State of the art的好成绩。毫不夸张得说,TensorFlow的流行程度让深度学习门槛变得越来越低,TensorFlow支持Python和C 两种编程语言,再复杂的多层神经网络模型都可以用Python来实现。因此,利用Tensorflow来对R-FCN进行有效合理的处理就成了一种很自然的想法。
1.2 国内外研究现状
近几年,电脑硬件的水平不断得到提升,尤其是GPU并行计算能力的进步明显,而深度学习的网络结构也在不断优化,使得网络的检测准确率和帧速率等都有显着提高,得益于此,深度学习在计算机视觉领域的应用条件也变得愈发成熟。卷积神经网络作为深度学习的一个分支是应用于计算机视觉的热点,其结构也经历了多次的变化改进,检测速率的提升使得网络模型结构越来越能满足多目标跟踪的实时性需求。