叶片图像特征提取及其数量性状关联分析毕业论文
2020-04-04 10:52:55
摘 要
叶子是在植物生命中起重要作用的主要植物器官。大豆作为一种主要的经济作物,在其基因型中具有不同的叶形,本课题研究的动机是分析东北地区大豆基因型的叶形变化及其与其他表型性状的相关性。
课题研究的实验数据于2017年七八月份在牡丹江集体采集,包括2000个大豆品种的若干叶片,扫描成数字图像,以此作为实验材料。同时,实验组收集了这2000个品种的大豆数量性状信息,包括百粒重、有效分枝以及生物产量等。本课题主要使用计算机图像处理技术来提取叶子的特征,并结合统计学知识对提取结果与大豆数量性状进行关联分析。
结果表明,几组叶形间表型形状存在显著差异,披针形叶组平均株高最高(89.97 cm),单株节数最多(15.72个/株);圆叶组平均百粒重(21.96 g)和单株种子重(21.92 g)最低;在椭圆叶组中,平均豆荚数最少(41.86个豆荚/植物);从成熟期看,大部分披针形叶片(67.24%)属于晚熟组,其中椭圆形叶片数量很少(11.54%)。本课题的研究结果表明叶片形状的变化是其他表型特征的重要指标,可为大豆分类以及东北地区培育新品种提供更多信息。
关键词:大豆叶片;图像处理;叶片特征提取;主成分分析;聚类分析算法
Abstract
Leaf is the main plant organ that plays an important role in plant life. As a main economic crop, soybean has a different leaf shape in its genotype. The motivation of this study is to analyze the leaf shape changes of soybean genotypes in Northeast China and their correlation with other phenotypic traits.
The experimental data of the research was collected collectively in Mudanjiang in July and August 2017. It included some leaves of 2000 soybean varieties and scanned into digital images as experimental materials. At the same time, the experimental group collected 2,000 varieties of soybean quantitative trait information, including 100-grain weight, effective branching, and biomass production. The subject mainly uses computer image processing technology to extract the characteristics of leaves, and combines statistical knowledge to carry out correlation analysis between the extraction results and quantitative traits of soybean.
The results showed that there were significant differences in the phenotype between several groups of leaf shapes. The average height of the lanceolate leaf group was the highest (89.62 cm) and the number of single plant sections was the highest (15.72/plant); the average 100-grain weight of the round leaf group was the lowest ( 18.14 g), the seed weight per plant (17.92 g); in the elliptic leaf group, the average number of pods was the lowest (41.86 pods/plants); from the maturation stage, most of the lanceolate leaves (67.24%) belonged to the late-maturing group, The number of elliptic blades is very small (11.54%). The results of this research show that the change of leaf shape is an important indicator of other phenotypic characteristics, and it can provide more information for soybean classification and breeding new varieties in Northeast China.
Key Words:Soybean leaf; image processing; leaf feature extraction; principal component analysis; cluster analysis
目 录
第1章 绪论 1
1.1研究背景及意义 1
1.2 国内外研究现状 1
1.3 课题研究内容 2
1.4 论文组织结构 3
第2章 基础知识介绍 4
2.1 植物叶形与性状 4
2.2 图像处理 4
2.2.1 图像处理技术 4
2.2.2 RGB图像与灰度图像 4
2.2.3 边缘检测 5
2.2.4 大津法 5
2.2.5 数学形态学 5
2.3 MATLAB 5
2.4 主成分分析与聚类算法 6
3章 数据来源与特征提取 7
3.1 实验数据来源 7
3.2 图像预处理 7
3.2.1 边缘检测 7
3.2.2 形态学处理 8
3.2.3 轮廓提取 9
3.3 特征提取 9
3.3.1 叶片特征概述 9
3.3.2 叶片特征提取 11
第4章 实验数据处理 14
4.1 主成分分析(PCA) 14
4.2 聚类分析 15
4.2.1 K-means聚类 15
4.2.2 层次聚类 16
第5章 结果分析 18
第六章 总结与展望 20
6.1 总结 20
6.2 展望 21
绪论
本章主要从研究背景及意义、国内外研究现状、课题研究内容和论文组织结构几个方面进行相关的阐述。
1.1研究背景及意义
叶片是植物进行光合作用的主要器官,是植物最基本、最重要的生命活动场所,直接反应植物的生长状态,而且其特征与生长环境和遗传因素关系紧密。不同植物的叶片特征大不相同,就算是相同品种的植物,其各叶片特征之间也有着一些的差异。这些差异可能是由于环境的不同而造成的,也可能是由基因控制的。而这些叶片特征之间的差异也有可能与植物的性状之间的差异有着密切联系。
大豆是世界上最重要的豆类,也是中国重要粮食作物之一,原产于中国,它的种子具有丰富的营养价值。常常用来做各种豆制品、榨取植物油和提取蛋白质等。作为一个大豆使用率极高的大国,主要的产区只有黑龙江省等地,大豆产量供不应求。如何生产出高产大豆,是当代人民的迫切需要,也是全面建设小康社会的迫切需要。而叶片作为植物的“脸”,已有研究表明,大豆叶片的形态特征与大豆的性状有着密切联系,可以根据大豆叶片的特征来确定甚至预测大豆的产量及品质。
但是对于人眼来说,大豆叶片的差异没有那么大,无法准确判断出真正的结果,而一些微小的差异又正可能是影响大豆性状差异的因素。并且统计大豆叶片的特征不仅需要大量的工作量,得到的结果也可能不准确。而随着数字图像处理技术的发展,解决方法也应运而生。数字图像处理技术在农业上的应用越来越广泛,越来越成熟。它可以精确的提取出植物叶片的特征参数,并且解放了大量劳动力。而且大豆叶片图像为二维信息,也易于计算机的处理和特征的计算。使用图像处理技术对大豆叶片的特征参数进行提取,并把提取出的数据与大豆数量性状进行关联分析,是本课题研究的主旨。
1.2 国内外研究现状
数字图像最早在20世纪20年代出现,当时的巴特兰电缆传输系统将图片传输到了大西洋的另一岸,所花费的时间从最初的一个多星期减少到了三小时。数字图像处理则是最早出现于20世纪60年代,1964年美国加利福尼亚的喷气推进实验室使用计算机技术对空间探测器发回的图像进行了改善。20世纪60年代末和70年代初,数字图像处理技术开始用于医学成像、地球资源遥感监测和天文学领域。自1986年以来,小波理论与变换方法迅速发展,它克服了傅里叶分析不能用于局部分析等方面的不足之处,Mallat在1988年有效地将小波分析应用于图像分解和重构[1],随后数字图像处理技术发展迅速,各种数字图像处理算法趋于成熟,应用到生活中的各个方面。
数字图像处理技术在处理农作物方面的应用起步较晚,但也有几十年的历史,1985年,安冈善文等通过红外成像的形式对被有毒气体污染的植物叶片展开了研究,这是计算机图像技术在农业领域应用的开始;1986年Ingrouille等人获取了植物叶片的27个形状特征,并将它们应用到了橡树的分类识别中[2];2001年赵静和何东健使用了计算机图像技术来识别果实形状[3];2006年Du J X等使用Douglas-Peucker算法获取描述叶片形状的特征向量,并且采用了一种改进的动态规划算法对叶片的形状进行匹配,这个方案的实验结果比较理想[4];2006年Neto等人利用椭圆傅里叶描述子提取了大豆、美洲茶、向日葵等植物叶片的轮廓特征[5];2010年Andreas Backhaus等人开发了LEAFPROCESSOR软件包,主要使用弯曲能等来对植物叶片进行识别,提取了轮廓并计算了特征[6];2017年Jana Wäldchen等人对植物叶片的各种特征做出了详细的说明,更加便于使用数学知识来进行特征的提取[7]。
植物叶片的形状能很好地用来分别植物,大多数研究都是通过叶片来识别植物种类。大豆作为一种主要的经济作物,在中国东北不同的基因型中具有不同的叶形,根据Sujata等人的研究,与其他性状相比,叶片形状受生长环境影响较小[8]。2004年Chen等人总结叶形成五类:椭圆形,卵形,披针形,线形和超线性[9];Yan等在评估6000多份大豆品种后,根据长宽比将大豆叶分成6个基本形状:圆形叶,卵形圆形叶,椭圆形叶,披针形叶,线叶和其他叶[10]。2012年Jeong等人发现窄叶种子每个荚的种子数多于阔叶种质的[11];Dinkins等的研究表明,与种子重量小的窄叶形种质相比,卵形叶种质每荚产生的种子更少[12]。
1.3 课题研究内容
本课题主要针对2017年七八月份在牡丹江采集的近2000个大豆品种的若干叶片,将其扫描成数字图像,提取其叶片特征后,对提取数据进行分析,评价叶片与大豆性状之间的关联性。主要研究内容包括以下几个方面:
- 对比各种图像处理的算法,选择合适的图像处理算法对叶片进行预处理;
- 根据Jana Wäldchen等人对植物叶片的各种特征做出的详细的说明,使用MATLAB提取叶片特征参数并存入Excel表格;
- 使用主成分分析对提取结果进行降维处理;对降维后的实验结果进行聚类分析,比较各种聚类分析算法得到的结果,选取最合适的聚类算法;
- 将分析的结果与大豆数量性状进行关联分析。
1.4 论文组织结构
本文的结构安排如下:
第一章为绪论,介绍了本课题的研究背景及意义,国内外研究现状、本课题研究的内容和本论文的组织结构。
第二章介绍了本课题所用到的各种生物方面的知识与计算机方面的知识。
第三章是本文的重点,介绍了如何对叶片图像进行预处理和提取叶片特征参数。
第四章讲述了对提取的叶片参数进行的主成分分析和聚类分析结果。
第五章讲解了叶片参数与大豆数量性状之间的关联
第六章是本文的小结以及对未来的展望。
第2章 基础知识介绍
本章首先介绍研究叶形与性状之间关联性的可行性,然后介绍对叶片图像处理用到的图像处理算法,主要包括RGB图片转为灰度图片、边缘检测算法、大津法和数学形态学以及实现算法的工具,最后介绍分析结果用到的主成分分析和聚类分析。
2.1 植物叶形与性状
植物的性状由多种因素控制,包括基因和地理环境,但是大量研究表明,大豆叶片的形状主要由基因控制,与环境关系不大,所以通过观察大豆的表型性状和不同叶形材料,分析叶形与其他表型性状之间的相关性是可行的。其中植物叶形主要由长宽比、圆度、矩形度、紧密度等相对特征参数来描述,大致可以分为圆形叶、椭圆形叶、披针形叶等。采集的大豆性状主要包括株高、单株节数、百粒重等。
2.2 图像处理
2.2.1 图像处理技术
对于植物叶形的分析需要用到数字图像处理技术,数字图像处理技术就是使用电脑对数字图像进行某些数学运算,目的是使图像的信息更加突出于实用。例如从图片中提取目标物的特征参数等等。总的来说,数字图像处理包括图像检测、压缩、分割、识别、形态学处理、复原、重建等。目前数字图像处理技术的应用越来越广泛,已经渗透到农业、工业、娱乐、卫生等方方面面,在生活中发挥着重要的作用。
2.2.2 RGB图像与灰度图像
采集到的原始叶片数据为RGB格式图像,RGB格式的图像是一种生活中经常会用到的图像格式,这种格式的图像可以分为三层,即红、绿、蓝,通过这三层的变化和叠加,可以得到色彩鲜艳的图像,其本质是一个M×N×3的彩色像素数组,每一层都是一个灰度图像。灰度图像就是其图像信息只有一层,图像数组只保存一种颜色,其本质为一个M×N的数组,其中像素的取值范围在0-255。
2.2.3 边缘检测
边缘检测是图像处理中一种非常重要的图像分析方法,所谓边缘就是那些灰度值变化很大的地方,这些地方的像素点所构成的集合就叫做边缘。根据这个定义可以看出,边缘就是一张图片里某个物体的轮廓。目前常用的边缘检测方法有很多,一般都是使用算子与图像运算来检测边缘,算子又分为好几种,比如Sobel边缘检测算子、Roberts边缘检测算子、rewitt边缘检测算子等等。本课题采用的是Sobel边缘检测算子来进行边缘检测。
2.2.4 大津法
将灰度图像变换成二值图像需要计算图像的阈值,使用阈值来对图像进行分割,可以将灰度图像变成二值图像。大津法,又叫最大类间方差法,是日本学者Otsu在1979年提出的一种计算全局阈值的经典算法。这个算法的基本思想是使用一个阈值将整个灰度图像分成两个部分,然后使用公式来计算这两个部分的类间方差,阈值的选取可以从0选到255,计算出最大的类间方差,它对应的阈值就是可以用来分割图像的最合适的阈值。
2.2.5 数学形态学
数学形态学于1964年诞生,它是一种对图像进行分析的基于集合的工具。它的基本思想是使用特定的结构元素去原始图像进行数学运算来改变图像或增强图像信息。数学形态学可以使图像数据简单化,使图像基本的和主要的信息不变,并且去掉次要的信息。数学形态学的基本操作有腐蚀和膨胀,本课题用到的数学形态学算法都是基于这两种原始操作。A用B腐蚀就是使B平移x后依然在A的集合中,用公式表示就是:
(2.1) |
膨胀可以看做是腐蚀的对偶运算,即把B平移x后得到,若击中A,则记下这个x点,所有满足上述条件的x点组成的集合称做X被B膨胀的结果。用公式表达就是:
(2.2) |
比较常用的数学形态学算法还有开操作和闭操作等。
2.3 MATLAB
本课题对于大豆叶片图像的处理、特征参数的提取和实验结果分析主要使用的工具是MATLAB。MATLAB是一种用于技术计算的高级语言,它融合了数学计算、程序编写和可视化,用人们熟悉的数学表示法来说明问题和回答问题,适合图像处理这种偏向数学计算的研究课题使用。MATLAB在数学计算类的软件里面用户人数最多,它的基本数据元素是矩阵,这就允许我们用数学方法和数学公式来求解许多计算机问题,我们可以把图像作为矩阵来处理,因而MATLAB就成为了图像处理应用的自然选择。MATLAB还自带许多图像处理的函数用来处理图像,比如灰度化、二值化、填充孔洞、检测边缘等,可以降低工作人员的工作量。如果要自己实现图像处理的算法,MATLAB中有关求解矩阵运算的函数也是极为方便的。综合以上几方面,MATLAB是本课题解决问题首选的工具。
2.4 主成分分析与聚类算法
对实验结果的分析主要使用的是主成分分析(PCA)和聚类算法。主成分分析是一种分析、简化数据集的方法,主要就是降低数据的维数,同时保持数据集中的对方差贡献最大的特征。即将贡献率高的成分作为主成分。这种方法在植物叶片识别中将特征向量综合成新的向量有着广泛的应用。
聚类的目的是将数据分类,但是事先不知道如何去分,完全由算法自己来判断各条数据之间的相似性,相似的就放在一起。在聚类的结论出来之前,是完全不知道每一类有什么特点的。得出聚类结果以后再通过人为的分析来确定每一类有什么特点。由于不同的聚类算法得到的聚类结果可能不同,所以要比较不同的聚类算法得出的结果,以选择最合适的聚类算法。
第3章 数据来源与特征提取
本章主要说明实验数据的来源,对得到的图像使用MATLAB进行预处理,提取叶片的特征参数,为之后的数据分析提供基础。
3.1 实验数据来源
本课题的研究数据来源于中国东北黑龙江省,在中国科学院东北地理与农业生态研究所的支持下于2017年夏季采集。每个品种共收集206个大豆基因型,每个品种采取了6片叶子, 分别来自植物的三个部分:上部、中部和下部,每个部分两片叶子,以使叶片数据更具代表性和可靠性。所有采集的大豆都在相同的环境中生长,享有最佳的灌溉和病虫害防治。然后我们使用白色A4纸作为背景获得了高清数字图像,每幅图片的存储大约为170M,以保存关于树叶的丰富信息。
从田间采集大豆三组表型性状,包括成熟期,株高,单株荚数,单株枝数,单株结荚数,百粒重和单株种子重。 我们用这三组平均值来表示除成熟期外每个品种的数量性状的最终值。
3.2 图像预处理
采集的叶片通过扫描仪转化为数字图像,并通过图像二值化,边缘检测,形态学处理和轮廓提取进行预处理。
3.2.1 边缘检测
对于拿到的叶片图像数据,欲要提取其特征参数,首先必然是要检测出叶片在哪里,即叶片的边缘检测,而边缘检测的第一步需要对原始的RGB图像进行灰度化处理。
以上是毕业论文大纲或资料介绍,该课题完整毕业论文、开题报告、任务书、程序设计、图纸设计等资料请添加微信获取,微信号:bysjorg。
相关图片展示: