基于深度学习的单目标识别技术研究文献综述
2020-04-23 19:56:32
1.1 研究目的及意义
图像识别是将存储的已有信息(记忆单元中的存储信息)与当前的输入信息(感官接收的当时信息)进行比较,利用计算机对图像进行加工处理、上下文分析和理解,识别各种不同物体目标或者物体对象的技术。由于图像的获取以及图像本身具有复杂性和特殊性,使得图像识别技术和方法一直以来都是计算机视觉及相关领域的研究热点。目前,图像识别技术已广泛应用到无人驾驶、智慧城市、智能交通、物流管理、搜索引擎、网络通信、虚拟现实、医学卫生、遥感成像和人工智能等多个领域。
图像识别的困难之处在于很难找到一种方法能够从自然环境中抽离出边界、纹理、角点和形状等图像特征概念,并且图像本身极易受到自然环境的影响而出现视角变化、尺度变化、扭曲形变、遮挡干扰、光照影响、背景掺杂和类内差异等困难,使得计算机更加难于得到关于自然图像的抽象表示和理解表达。
现阶段,多数图像识别方法都是通过“特征提取”和“分类识别”两个步骤来实现的,如图 1.1 所示。“特征提取”主要针对特定识别任务完成对图像内容的刻画,通常需要训练特定已标记数据集提取图像特征,特征提取的质量直接影响到最终分类识别的准确率;“分类识别” 则通常采用机器学习领域较为成熟的分类算法对未知类标号的实例进行类别预测判定。
图 1.1 机器学习中的图像识别方法执行流程
但是,这类机器学习方法具有高度的任务相关性,往往需要人工设计图像特征,当脱离具体的数据集而面向一般的自然图像识别任务时,能否保持原有的性能尚有疑问;另一方面,这类方法的计算成本较高,使用分阶段的人工标记特征实现实时的图像识别仍有困难。故而,部分研究者投身于研究从原始自然图像中“自学习特征”而非事先“人工设计特征”的深度学习(Deep Learning) 领域中。
图 1.2 图像识别中的机器学习与深度学习对比图
深度学习和多数机器学习算法最大的不同在于特征提取。图 1.2 中描述的深度学习就像是一个“黑盒子”一样,所有的特征提取依靠深度学习算法自动处理,而且深度学习常采用多层网络结构逐步将图像的底层特征组合形成高层特征,从局部信息逐渐抽象到高层语义信息,形成一个多层传递、逐步抽象和迭代细化的过程;整个处理流程无需人工标记特征,不需要额外的人工干预过程,将特征提取与分类识别串联在一起,从而完成端到端的图像识别,这也为昂贵而又耗时的特征设计与提取节约了成本。