基于卷积神经网络的图像分类文献综述
2020-04-21 16:30:07
1.1 研究目的及意义
随着社会的进步与科技的快速发展,图像已经成为人们获取信息越来越重要的手段。近年来出现在人们生活中的图像数量迅猛增长,对于数量巨大的图像数据,人们需要快速、有效地、合理的对这些海量图像数据进行分析和处理并对分析后的图像进行识别和分类,这能大大的提高人们从海量图像信息中找到自己需要的信息的效率。在这个追求效率的数字和信息化时代,想要用人工参与的方法 来对海量的图像数据进行分类处理需要耗费大量的人工和时间资源,而且效率低 下、带有较高的主观性,这已经跟不上时代发展的步伐了。因此,使用计算能力 强大的计算机并按照一定的算法来代替人工的方式对图像进行智能处理是势在必行的。
图像分类是指利用人工智能技术特别是机器学习方法,使得计算机能够对 图像进行识别和分类的过程。作为当今热门的机器学习算法之一,深度学习的前身是神经网络,当时神经网络没有给出一个严格的定义。它的基本特点是模仿大脑神经元之间处理生物的方式来进行自身的学习。大脑对于某个事物及概念的存储,不是记忆在某个单一的神经细胞里,而是分布式地存储于整个神经元细胞里。深度学习具有分布式表征图像信息的优势,因此,基于深度学习算法来自学习图像的特征,进而实现图像的准确分类也成为了现在机器学习学科的研究热点。图像分类目前已经成为模式识别研究领域一个重要的方向,涉及人脸识别、物体识别、行人检测等等,对该方向的深入研究具有巨 大的理论研究意义和广泛的实际应用价值。
1.2 国内外研究现状
近几年来人工智能研究领域的工作者们一直在寻找一种能够解决机器抽象认知问题的办法,在此工作进程中他们也取得了一些实质性的进展。深度学习的出现对人工智能方向的发展起到了划时代的决定意义,它让人工智能走上了一个崭新的起点,这不仅让学术界的研究者们看到了新领域的研究方向,而且也给工业领域带来了希望。因为新的研究领域预示着更新的、更方便人们生活产品的诞生,在近几年的生活实际中也印证了这一点,如智能家居、智能轿车、无人机拍摄等的出现,这些都大大的方便了人类的起居生活。
1943年科学家Warren Mc Culloch和Walter Pitts最早提出了一种计算模型理论,即后来被称为神经网络。
1957年Frank Rosenblatt发表了“感知器”一文,文中第一次出现了用算法来准确定义神经网网络。同时感知器也是设计出的第一个有自学习能力的算法模型。Rosenblatt乐观地预测感知器可以“学习、做决定、翻译语言”。感知器的技术在六十年代一度走红,美国海军曾出资支持这个技术的研究,期望它以后可以“自己走、说话、看、读、自我复制、甚至拥有自我意识”。
1969 年 Marvin Minsky 出版了一本新书,名为“感知器-计算几何简介”,该书指出了感知器的两个局限性问题:1)一层神经网络根本无法解决非性分类问题,如典型的二进制异或问题。2)神经网络模型的训练及测试都需要极大的计算量,而当时计算机的计算量与计算速度都很低,其并不能满足该模型所需的计算量和计算速度。基于这两种原因的限制导致了以后的一二十年里,神经网络的研究进入停滞期,相关项目长期无法得到政府经费支持,这段时间被称为业界的核冬天。
当时神经网络被诟病的问题之一是极其巨大的计算量。简单地说,因为当时的感知器需要用“梯度下降”算法来进行纠错,在此过程中其需要的计算量与网络中的神经元个数的平方成正比。当网络层数增加时,其神经元数目也相应的增多,这样庞大的计算量是当时的硬件所无法胜任的。
1986 年 7 月 David Rumelhart 在自然杂志上发表了一篇名为“反向传播误差的学习表示”的论文,该论文首次提出将 BP 算法应用神经网络模型当中。通过这种巧妙地反向传播设计,使得该算法的纠错运算量得到了显著的降低,从原来的跟神经元个数的平方成正比变为了跟神经元个数自身成正比,这大大的加快了网络的训练速度。BP 算法在神经网络的应用也很巧妙地解决了当时感知器无法解决的二进制异或问题。
加入了 BP 算法的神经网络在做形状识别之类的简单工作时,其效率比感知器得到了大大的提高了。至此,神经网络的研究开始复苏。