基于深度学习的图像理解技术研究文献综述
2020-04-23 19:56:38
1、目的及意义
1.1 研究目的及意义
随着大数据时代的到来,深度学习技术已经成为当前人工智能领域的一个研究热点,其在图像理解、语音识别、自然语言处理等领域展现出了巨大的优势,并且仍在继续发展变化。随着传感器技术、存储技术、计算机技术和网络技术的迅猛发展以及人类管理与知识水平的提高,使得数据的膨胀趋势日益加剧,信息技术发展的瓶颈已不仅仅存在于数据的获取、存储与传输,而更受限于数据的加工、分析和利用。采用有效的人工智能技术从大数据中获取抽象信息并将其转换为有用的知识,是当前大数据分析所面临的核心问题之一。大数据时代,如何对纷繁复杂的数据进行有效分析,让其价值得以体现和合理的利用,是当前迫切需要思考和解决的问题,而近期兴起的深度学习方法正是开启这扇大门的一把钥匙。
图像理解就是对图像的语义理解,是以图像为对象,知识为核心研究图像中有什么目标,目标之间有什么关系以及图像的背景是什么。图像理解与人工智能密切相关,人工智能简单的说就是研究用计算机模拟人脑、模拟人类智能的一门科学,传统的人工智能以人类的知识为对象,研究知识的表示、存储、推理,以及获得新的知识。而深度学习作为人工智能的一大技术,可以在图像理解上发挥极大的用处。
深度学习主要在以下三个方面具有巨大优势:
1.从统计和计算的角度看,深度学习特别适合处理大数据。在很多问题上,深度学习是目前我们能找到的最好方法。它集中体现了当前机器学习算法的三个大趋势:用较为复杂的模型降低模型偏差(model bias),用大数据提升统计估计的准确度,用可扩展(scalable)的梯度下降算法求解大规模优化问题。
2.深度学习不是一个黑箱系统。它像概率模型一样,提供一套丰富的、基于联接主义的建模语言(建模框架)。利用这套语言系统,我们可以表达数据内在的丰富关系和结构,比如用卷积处理图像中的二维空间结构,用递归神经网络(Recurrent Neural Network, RNN)处理自然语言等数据中的时序结构。
3.深度学习几乎是唯一的端到端机器学习系统。它直接作用于原始数据,自动逐层进
行特征学习,整个过程直接优化某个目标函数。而传统机器学习往往被分解为几个不连贯的数据预处理步骤,比如人工抽取特征,这些步骤并非一致地优化某个整体的目标函数。
利用深度学习这一技术可以在图像理解中,更好的抓住图像的特征,同时也可以把图像中的特征相互关联起来,生成自然语言描述。基于深度学习的图像理解使计算机能像人类视觉系统一样,具有“看懂”世界的能力,从而能自主适应环境、改造环境,借助图像理解让互联网服务更好地理解世界、洞察用户。