基于字典学习的叶片识别方法研究毕业论文
2020-02-16 21:42:08
摘 要
叶片识别可以帮助鉴定物种,在农业学中有比较重要的应用,近年来成为热门的研究方向。一般而言通过叶片图像进行分类的研究方法,都需要对叶片特征进行提取,这使得分类过程复杂,识别时间长。本文提出的叶片识别方法,基于字典学习与稀疏表示分类,省去特征提取的过程,提高了识别速度。
将叶片的识别转化为待测试叶片图像在字典中的稀疏表示问题。对训练样本图像进行字典学习,构建一个尽可能小的超完备字典,计算测试样本图像的稀疏表示。主要实现流程是先对叶片图像进行灰度化等预处理工作,然后将其图像矩阵转化为向量,得到的向量用线性差值法转化为相同长度。完成数据准备后,将叶片划分为训练集和测试集,对训练集中的叶片通过字典学习构建冗余字典,测试集中的叶片可基于字典进行稀疏表示,计算残差,利用残差值最小原则完成分类。相比较一般的叶片识别方法,本文的特色在于不需要进行叶片特征提取,可以更快的对叶片进行分类,提高效率。
基于Swedish数据集进行研究,对数据集中的15种叶片进行分类识别,每类叶片选取20幅图像构成训练集,其余图像构成测试集,验证所研究方法。实验结果表明,识别的正确率可达到90.66%,验证了本文方法在叶片识别方面能达到较好的效果。
关键词:叶片识别;字典学习;稀疏表示
Abstract
Leaf recognition can help identify species and has important applications in agronomy, and has become a hot research direction in recent years. In general, research methods for classification by blade images require extraction of blade features, which complicates the classification process and has a long recognition time. The blade recognition method proposed in this paper is based on dictionary learning and sparse representation classification, which eliminates the process of feature extraction and improves the recognition speed.
The identification of the blade is transformed into a sparse representation problem in the dictionary of the image of the blade to be tested. The dictionary of the training sample image is learned, and a super-complete dictionary is constructed as small as possible to calculate the sparse representation of the test sample image. The main implementation process is to perform preprocessing on the image of the blade, such as graying, and then convert the image matrix into a vector, and the obtained vector is converted to the same length by the linear difference method. After the data preparation is completed, the blade is divided into a training set and a test set, and the redundant dictionary is constructed by the dictionary learning in the training set, and the leaves in the test set can be sparsely represented based on the dictionary, the residual is calculated, and the minimum residual principle is used. classification. Compared with the general blade recognition method, the feature of this paper is that it does not need to extract the blade features, which can classify the blades faster and improve the efficiency.
Based on the Swedish dataset, 15 kinds of leaves in the data set were classified and identified. 20 images of each type of leaves were selected to form a training set, and the remaining images constitute a test set to verify the research method. The experimental results show that the correct rate of recognition can reach 90.66%, which proves that the method can achieve better results in blade recognition.
Key Words:Leaf recognition; dictionary learning; sparse representation
目 录
第1章 绪论 1
1.1研究背景及意义 1
1.1.1 叶片识别研究背景 1
1.1.2 叶片识别研究意义 1
1.2 国内外研究现状 2
1.2.1 叶片识别研究现状 2
1.2.2 稀疏表示研究现状 3
1.2.3 字典学习研究现状 4
1.3 本文研究的主要内容与结构安排 4
第2章 基于字典学习和稀疏表示的叶片识别方法 6
2.1 叶片图像预处理 6
2.1.1 叶片图像灰度化 7
2.1.2 平滑滤波去噪处理 7
2.1.3 去除叶柄 9
2.1.4 长度归一化插值计算 10
2.2 基于稀疏表示和K-SVD字典学习的叶片识别 10
2.2.1 叶片图像的稀疏表示 11
2.2.2 K-SVD字典学习 11
2.2.3 基于K-SVD字典学习和稀疏表示分类识别算法 12
2.3 叶片识别仿真实验方法与实验结果分析 14
2.3.1 实验过程 14
2.3.2 实验结果 14
2.4 本章小结 16
第3章 结论与展望 17
3.1 论文工作结论 17
3.2 论文工作展望 17
参考文献 18
致谢 20
第1章 绪论
1.1研究背景及意义
1.1.1 叶片识别研究背景
对于农作物的保护,物种的鉴别,都需要对植物有充分的了解与认识,可是现在对于植物种类的认知,获取渠道很少,对知识的获取不便利,使得很多不从事植物研究的人们无法在日常生活中分辨物种。因此收集植物数据,对资源进行整理完善迫在眉睫,一个完整数据库的建立应当越来越收到专业人员的重视。叶片识别因为其性状稳定、存活时间长等优点成为鉴别植物种类的重要方式。从单叶植物到复叶植物,叶片图像同一物种在不同时期的颜色、形状可能不同,不同物种在某一性状上也可能有相似之处,因此正确对叶片进行识别是一个值得深入研究的方向。
传统的叶片识别是对植物叶片进行人工测量,对所得到的数据进行分析以此来分类叶片的。人们很难通过学习获得关于叶片识别的全部知识,而且精力的下降、注意力不集中等因素会影响识别的正确率。因此人们渐渐意识到对于植物的分类不能只靠人工识别。
通过图像处理技术和计算机识别技术的不断发展,利用计算机对植物进行分类成为可能。近十年来提出了很多有关自动识别的方法,这些方法多半采用特征提取的方式,对叶片特征设定不同的标准,原理和识别过程如下:先提取叶片的分类特征,例如颜色、纹理等,然后采用不同的分类器进行分类训练,例如神经网络分类器。不同分类器对叶片进行分类,识别的正确率和识别时间有很大不同。在这些识别方法中,一个重要的步骤就是叶片的特征提取,为了用计算机语言对叶片特征建模,研究者进行了很多次实验,定义了一些描述公式,对叶片的颜色、纹理和形状进行描述。在真实采集叶片提取特征时,还是会面临诸多困难。一些特征在二维图像上的表现不明显;像叶尖的形状这样的特征可以作为分类的标准之一却很难建立数学模型,用数学的语言表示处理;一些特征容易受到其他因素的干扰,采集时设备的不同、光照的不同都可能对其产生影响,提取并不容易。因此如何减少分类复杂度,如何不提取叶片特征进行分类识别,成为亟待研究的课题。
1.1.2 叶片识别研究意义
一方面,利用叶片识别技术辅助建立植物数据库可以帮助研究者对植物进行更深的探索。许多植物学方面的研究都要以分类为基础,便捷的鉴定过程可以在做大数量识别时简化研究者工作,有助于研究工作的快速展开。另一方面,有一定的经济价值,将叶片识别应用于中药或一些生物材料的辨别,能在实际应用中带来便利。
利用机器学习对植物进行分类。对于研究人员,可以将人力解放出来,减少由于主观性和精力因素导致的正确率下降的问题。对于非专业人士,也可以直接分辨植物的种类,满足人们对于植物知识的获取。在研究领域及实际生活中都具有重要意义。
研究叶片识别,可以推广到许多应用:(1)应用于植物生态监测,保护物种多样性;(2)推广到良种鉴别的应用;(3)建立数字化植物标本系统;(4)推广到农作物病害鉴定,应用于农业生产。
1.2 国内外研究现状
1.2.1 叶片识别研究现状
国外有关叶片识别的研究早于国内,在八十年代中期,Ingrouille等人就对橡树叶片进行了分类识别,并取得了不错的成果。他们提取了27个形状特性,利用主成分分析法比对形状特性,成功识别橡树的种类。Thomas等人利用形态计量方式,提出了一种基于角度方向的闭合2D轮廓的形状空间和Kendall任意维度形状的空间,对叶片进行分类。Guyer等人使用研究对象的质心确定关键点,从物体边界的关键点收集的信息来提取叶子形状特征,利用17种形状特性对40类植物进行了方法验证。Yonekawa等人开发了图像采集处理软件,使用简单的无量纲形状因子来识别理想化的叶片类型,完成1280个叶片图像识别实验。Abbasi等人提出了CSS方法,实现了二维图像的半自动化分类,并对40种菊花实验,进行分类识别。oide等人开发了一种通用模型,不需要定义和提取任何形状特征,使用输入叶形图像的神经网络,利用Hopfield网络实现品种鉴别[1]。Soderkvist等人对植物叶片提取了15种几何特性和矩特性,用前馈神经网络的方法完成分类识别,实验用到的数据集后来形成一个标准数据集--Swedish数据集[2]。Joao等人使用椭圆傅立叶(EF)和判别分析,基于叶边界生成链编码,使用连续EF函数之间的变化计算叶形的复杂性指数。利用主成分分析选择具有最佳辨别力的傅里叶系数,实验的平均识别率达到89.4%[3]。
国内研究在1994年起步,中科院傅星等人提出快速分类方法,用形心轮廓距离作为叶片形状特征,对所选两种叶片达到了100%的识别率。毛文华等人利用位置、颜色和纹理等特征对田间杂草进行分类识别[4]。朱静等人提取叶基部凹陷程度等形状特征,可以识别常见的叶形,实验达到了95.3%的正确率,但对植物种类无法做到有效判别[5]。王晓峰等人提出移动中心超球分类器,对图像进行阈值分割、形态学处理和轮廓提取,计算矩形度等8个几何特性和7个不变矩对叶片进行识别,平均识别率达到92%[6]。张静等人研究叶裂情况,将叶裂程度、叶裂数和叶裂形式作为识别性状,实验结果表示叶裂可以作为性状之一用于叶片识别[7]。Ling等人提出IDSC算法,定义形状轮廓内的界标点之间的最短路径长度为内距离,基于形状上下文构建新的形状描述符,该算法表现出优越的性能[8]。
尽管研究人员在植物分类上的探索获得显著成就,利用图像处理和机器学习对植物进行分类仍存在诸多困难[9]:(1)叶片图像会受采集时的诸多客观因素影响,难以用同一标准处理不同光照下的图像。(2)同一物种不同生长时期性状不同。(3)在不同环境下生长的同一物种性状也有所差异。
因此本文提出基于字典学习和稀疏表示分类的叶片识别方法,对叶片图像直接进行处理,不需要提取形状、纹理、颜色等特性,极大的解决了因性状复杂而导致的叶片识别方面的困难。
1.2.2 稀疏表示研究现状
稀疏表示由Mallat和Zhang提出,应用于信号压缩降噪及反问题。他们基于小波理论,通过信号在原子库上的分解,自由选择基函数代替原来的正交基,使信号能被更灵活的表达。稀疏表示能够带来节约存储空间,提高处理数据速度的好处,在这二十多年的研究中,降低稀疏分解复杂度和稀疏表示的应用成为重点。梁巍等人应用MP稀疏分解算法,引入相邻残差比,进行迭代运算,迭代直到残差比达到阈值[10]。邓承志等人提出多原子快速匹配追踪算法,利用冗余字典分解为非相干子字典的办法提高了稀疏分解速度[11]。目前在稀疏表示中对最优化问题的处理方式主要有两大算法,即MP算法与BP算法。匹配追踪算法实际是贪婪算法的一种,基本原理是从一个已经定义好的原子库中选择一列,要使选择的原子尽可能靠近待表示的信号,求残差值后继续选择与残差最匹配的原子,重复这样的选择使信号成为这些原子的线性表示。信号可以表示为原子的线性和加最后一个残差值,最后的残差值要保证在我们所设定的阈值中。MP算法由于信号在原子的选择上进行正交化处理,无法保证残差和已经选择的原子线性无关,使得后面迭代选择的列在前面已经出现。每次迭代都没有得到最优结果使收敛需要很多次运算。为了解决这个问题,Pati等人于1993年提出了改进的OMP算法,正交匹配追踪算法规定残差必须与计算选择过的原子正交。残差与原子正交就保证迭代选择的原子不会重复出现,残差越来越小,计算结果可以很快收敛。OMP分解过程要利用施密特正交化,这时残差值表示为待分解信号减掉所选原子正交化后在原子上各自的分量的值。另一种比较常见的算法是基追踪算法,该算法使用L1范数来代替L0范数解决最优化问题,使用线性规划问题求解。可以用单纯形法或内点法实现,得到的解更精确,但计算复杂度大。
Wright和Yang将稀疏表示分类应用于人脸识别,直接将所有原始训练样本构成冗余字典,使用L0范数为最小约束下计算稀疏系数,根据误差确定分类结果[12]。这样使得字典尺寸很大,在求解稀疏系数时效率不高。字典学习在稀疏领域中很受重视,在字典学习得到冗余字典后,从中找到最稀疏的线性组合,将数据样本用另一种方式表示出来。如何设计字典学习算法使求解高效仍是一个值得研究的方向。
1.2.3 字典学习研究现状
对于字典学习在图像分类领域的应用方式,一种是利用字典本身来区别样本,另一种就是利用重构系数差异区别样本。稀疏表示构建字典主要分解析法和学习法两大类。解析法包括小波相关变换,参数化字典等。韩安太等人通过在L1范数下求解最优化问题实现害虫样本的稀疏分解,利用解析参数化字典,求解重构系数,实现害虫的分类识别[13]。李超等人构造解析字典,得出双树复小波方向性表达实木复杂信息的结论[14]。学习法构造字典则从1996年Olshausen等人提出的Sparsenet算法开始奠定了理论基础。之后Engan等人提出MOD算法,通过训练过程不断迭代更新原子,使残差减小到收敛条件,该算法的缺点在于求逆运算使得算法速度很慢。Aharon等人提出K-SVD算法,该算法交替迭代的进行稀疏编码与字典更新,在构造字典的过程中,不仅将原子依次更新,对稀疏矩阵中对行向量也进行修正,收敛速度也快了许多[15]。Mairal等人在2010年提出在线字典学习算法,该算法能在图像处理过程中使用其本身作为样本,持续更新字典,得到更适合处理图像的活动字典,该算法在收敛速度上也有明显优越性[16]。Zeng等人提出了一种新的基于距离的融合稀疏表示和局部约束字典学习(SRLC-DL)的方法,用于鲁棒叶识别[17]。
基于稀疏表示的字典学习方法已被广泛应用,但稀疏表示分类构建冗余字典中稀疏求解的过程比较耗时。如何设计高效的字典学习算法仍值得研究。本文在稀疏表示分类字典学习的基础上,将训练集样本分类构成子字典,优化稀疏求解耗时的问题。将植物分类问题转化为稀疏表示分类问题,使叶片性状不是分类中必须提取的因素,降低植物分类问题的复杂性,并从多个子字典中进行学习,提高了分类的效率,有很好的鲁棒性。
1.3 本文研究的主要内容与结构安排
本文基于字典学习和稀疏表示对叶片识别方面的应用进行研究,将叶片的识别转化为待测试叶片图像在字典中的稀疏表示问题。对于所提出方法做了初步的研究与实验,为更深层次的研究做好准备。结构框架如图1.1所示。
图1.1 论文结构框架图