基于可见光深度信息融合的银杏花穗定位与定向研究文献综述
2021-12-14 22:33:09
基于SSD深度信息融合的银杏花穗
定位与定向研究
摘要: 电子信息技术的发展,深刻影响着林业机械,“智能化 电子化 自动化 环保化”的林业机械已成为热点,有助于实现林业生产的优质、高效、经济和环保。本综述提出了目前银杏花穗和花粉采摘的痛点,介绍了深度学习的定义、发展以及各种框架的优缺点。深度学习在农林业生产中有极大的作用,本综述阐述了深度学习在农林生产中已有的应用,并分析了它们的发展性和局限性。
关键词:SSD框架 银杏花穗 定位定向 点云 信息融合
- 前言
为了更好的进行推进林业机械画的进程,提高林业机械的机械性能,机器视觉和深度学习近年来在林业机械中运用广泛。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。 深度学习是人工智能机器学习的一种 。它的出 现主要为解决那些对于人来说很容易执行,但很难形式化描述的任务。对于这些任务,我们可以凭借直觉轻易解决,但对于人工智能来说却很难解决。针对这些 比较直观的问题,深度学习这种方案可以让计算机从经验中进行学习,并根据层次化的概念体系来理解世界[1]。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。机器视觉是人工智能正在快速发展的一个分支。简单说来,机器视觉就是用机器代替人眼来做测量和判断。机器视觉系统是通过机器视觉产品(即图像摄取装置,分CMOS和CCD两种)将被摄取目标转换成图像信号,传送给专用的图像处理系统,得到被摄目标的形态信息,根据像素分布和亮度、颜色等信息,转变成数字化信号;图像系统对这些信号进行各种运算来抽取目标的特征,进而根据判别的结果来控制现场的设备动作。深度学习和机器视觉的结合,为某些林业生产某些环节的机械化和自动化创造了条件。
银杏是现存裸子植物中最古老的孑遗树种,享有“活化石”、“植物大熊猫”之美誉。银杏具有多 种功能,集食用、药用、材用、保健、绿化、美化等于一身。发展、研究、赞美银杏已成为现代我国重要的文化现象。因此,银杏近年来在全国城乡各地已被广泛栽植。清明节至谷雨期间,正是对银杏树实施人工授粉的最佳时期。由于银杏雌雄异株,极少雌雄同株,目前实施人工授粉是使其多结果增加经济效益的重要途径[2, 3]。人工授粉大多需要人工采摘成熟花穗,效率较低,但由于银杏花穗生长环境复杂,传统的机械无法达到很高的机械化程度,因此,需要我们运用深度学习等技术手段为银杏花采摘机构提供较花穗的较为精确的位置及方位信息,提高采摘的精确程度。与其他林果相比,银杏花穗图像具有以下特点:生长环境复杂,图像存在大量干扰区域;银杏花穗颜色与叶片颜色接近两者区别度低;银杏花穗生长密集,分布不均匀,相互重叠遮挡;银杏树枝叶繁茂,且与花穗相互遮挡。油茶果识别与本课题存在类似的问题,中南林业科技大学的李昕通过分析油茶果的颜色与形状特征,提出了基于偏好人工免疫网络的油茶果目标图像识别算法,并针对其生长特性,提出了一种基于hough变换的遮挡油茶果识别算法[4];中南科技大学的张习之针对油茶果图像特点,基于亮度均匀化的成熟油茶果图像分割方法,针对油茶果的遮挡特性,提出了基于凸壳定理的油茶果识别算法[5]。本课题组针对银杏花穗的特点,提出了基于SSD目标识别网络的银杏花穗识别算法。目前在植物采摘中运用深度学习只能给采摘机构提供的三维的位置信息,但是对于采摘目标的方向信息的研究较少,本文利用可见光图像、深度图像、点云图像得到的信息进行融合,从而得到银杏花穗的定位定向信息,为银杏花穗采摘机构提供了更为准确的采摘信息,进而引导采摘机械机构避开枝条、由可行的方位接近花穗目标,从而成功实现机械动作。迄今为止,尚未发现有关银杏花穗采摘机器人图像系统的研究文献,针对林果采摘时定向研究的相关文献也尚未发现。由此可见,银杏花穗的定位定向研究处于起始阶段。
-
国内外研究概况
- 林果识别研究现状
中国是世界农业生产大国,采摘业是农业生产中的重要环节,每年需要大量人力在指定季节内快速集中采摘果实。随着我国农业从业人数的大幅下降和劳动力成本的上升,急需开展采摘机器人的研究,实现智能化采摘[6]。采摘机器人视觉系统的研究始于上世纪80年代,并伴随着图像处理技术与人工智能深度学习理论的发展而不断进步其中果实目标的定位检测与分类识别的精度是至关重要的环节。深度学习在林果识别中应用较多的识别目标有:苹果[7-10],柑橘类[11-13],番茄[14],猕猴桃[15-17],芒果[18, 19],枸杞[20, 21],百香果[22],葡萄[23],草莓[24]。这类林果的颜色形状与枝条、树叶等环境存在较大对比度,为建立识别算法提供了较大的选择。在对苹果识别的研究中,张世福通过MobileNetV1网络和FPN网络提出了改进的SSD算法的苹果识算法,AP值达到0.925[7];赵德安等人利用改进的YOLOv3网络对复杂环境下进行苹果果实定位,mAP值87.71%,准确率为97%,召回率为90%,IOU为83.31%[8]。田玉宇运用基于优化的Mask R-CNN识别算法,利用深度图像中的深度信息绘制等深图,将梯度向量从三维向二维投影获得向量聚集区域,从而确定圆心,解决了定位难题,该模型识别苹果的平均准确率为97.31%,召回率为95.70%[9]。赵海东采用基于Faster-RCNN原理的VGG16网络模型,使用去背景的彩色苹果图像进行训练,最后该模型单个无遮挡的果实AP值为91.12%,遮挡的果实AP值为86.48%,mAP值为88.80%,检测间隔时间为0.24s,采用kinect定位原理,使用Kinect v2三维体感摄像机,并对图形进行点云去噪,获得苹果的三维位置坐标[10]。在对柑橘的识别中,汤林越采用阈值分割方法,采用形态学对二值分割图像进行后处理,使用最小外接矩形检测出柑橘所在区域,选择Faster-RCNN算法,最终平均检测精度为83.24%[11]。熊龙烨采用Darknet53为特征提取网络的YOLOv3模型,柑橘的平均识别准确率为86.42%,检测速度为30.23fps,利用RGB-D相机对柑橘进行三维定位,验证是否满足采摘需求[12]。张璐采用基于YOLOv2网络和U型全卷积网络的目标分割原理,自然环境下的柑橘果实进行分割模块,通过Hough变换圆拟合出真实柑橘轮廓,该模型识别的准确率为86.50%[13]。刘芳等人提出了改进型的IMS-YOLO(下文具体介绍),该模型对复杂环境下番茄果实的检测精度为97.13%,检测时间为7.719ms,准确率为96.63%,召回率和交并比分别问960.3%和83.32%[14]。其它林果的识别方法及其效果不再一一赘述。可以见得,利用深度学习网络对林果进行采摘这一机器视觉方法正在向着识别精度和识别速度不断提升的方向发展。
-
- 深度卷积神经网络在目标检测中的发展
近些年来,深度卷积神经网络(DCNN)在图像分类和识别上取得了很显著的提高。回顾从2014年至今,先后涌现出了R-CNN,Mask R-CNN[9, 25],Fast R-CNN, Faster R-CNN[10, 11, 26],ION,HyperNet[27],SDP-CRC,,YOLO[8, 12-14, 28-30],G-CNN[31],SSD[32-37]等越来越快速和准确的目标检测方法。这些目标检测方法大致分为两类:一种是先得到候选区域再对候选区域进行分类和边框回归,另一种中是直接预测边界框的方法。
- CNN是较早地将DCNN用到目标检测中的方法。其中心思想是对图像中的各个候选区域先用DCNN进行特征提取并使用一个SVM进行分类,分类的结果是一个初略的检测结果,之后再次使用DCNN的特征,结合另一个SVM回归模型得到更精确的边界框。在R-CNN的基础上,为了使训练和测试过程更快,Ross Girshick 提出了Fast R-CNN,使用VGG19网络结构比R-CNN在训练和测试时分别快了9倍和213倍。为了再次提高识别速度,Shaoqing Ren提出了Faster R-CNN来实现这种想法,Faster R-CNN的精度和Fast R-CNN差不多,但是训练时间和测试时间都缩短了10倍[26]。HyperNet在Faster R-CNN的基础上,在得到更好的候选区域方面比Faster R-CNN中使用的RPN有了进一步的提高。其想法也是把不同卷积层得到的特征图像结合起来,产生更好的region proposal和检测准确率[27]。这些识别方法属于第一大类。
第二大类识别方法主要有:YOLO、G-CNN、SSD。YOLO的思想是摒弃生成候选区域的中间步骤,通过单个卷积神经网络直接对各个边界框进行回归并且预测相应的类别的概率。徐融通过改进YOLOv3网络,在特征提取模块中级联RFB进行特征增强,并在主干网络中使用密集连接的方式增强的浅层特征提取,最后利用更具有泛化能力的FIoU损失函数来提高小目标检测的准确率[29]。张奇对YOLO3的卷积核进行设计了空洞卷积核,通过借鉴Densenet设计思路,将特征图整合输出部分的残差块替换成密集卷积快,减少了目标信息丢失现象;提出了自适应NMS算法,减少了传统NMS算法因交并比大于阈值而舍弃的被遮挡物的现象,提高了识别率[30]。刘芳等人提出了改进型的IMS-YOLO,采用含有残差模块的darknet-20主干网络实现特征提取和检测速度的提升,借鉴YOLOv3-tiny检测结构,提升了检测的精度,该模型对复杂环境下番茄果实的检测精度为97.13%,检测时间为7.719ms,准确率为96.63%,召回率和交并比分别问960.3%和83.32%[14]。G-CNN将目标检测问题看作是把检测框从一些固定的网格逐渐变化到物体的真实边框的问题。G-CNN中使用约180个初始边框,经过5次迭代, 检测帧率在3fps左右,准确率比Fast R-CNN要好一些[31]。SSD方法基于一个向前馈送的卷积网络,该网络为这些框中存在对象类实例生成固定大小的边界框集合和分数,然后是非最大压制步骤以生成最终检测。孙南从低层卷积检验层角度出发,对基础网络中的低层特征检验层融入上下文信息,从而提高SSD网络模型对小目标检测的精度[33]。董永昌等人将Densenet作为SSD模型的前置网络,使得网络深度增加,提升了梯向反向传播,对于不同像素、不同姿态的行人检测具有较好的鲁棒性[34]。邓壮来提出了L-SSD害虫检测网络,在SSD-V网络的基础上,通过降低部分卷积层尺度来提升训练速度,优化了损失函数从而增加了难例样本的利用率,增加网络的锚点类别数和优化置信度阈值来提升害虫的检出率。L-SSD网络相对于其他类别网络在害虫识别检测的mAP值提升了1.5%~3%,相对于不同类别的SSD网络提升了1.8%~3%[35]。郭泽方将轻量化的MobileNetV2网络引入经典SSD网络模型,提升了识别的精度和识别速度,满足了柑橘实时识别要求,SSD-MobileNetV2模型与Faster R-CNN模型和HOG结合SVM方法相比,平均准确率分别提高了7.54%和17.38%,识别速度分别是两种模型的9倍和15倍[35]。侯庆山等人鉴于SSD算法对中小目标检测时会出现漏检甚至错检的情况,提出采用KL边框回归损失策略,利用Non Maximum NMS算法输出最终预测框.从而提高识别的准确率以及稳定性[37]。由此可见近年来,深度卷积神经网络的种类在不断发展,每一种神经网络由于其自身的特点,运用在不同的场景。由于SSD网络识别速度快,识别精度高,因此,选用SSD网络进行银杏花穗的识别研究。
- 技术路线
注释:1. 深度传感器型号为Intel RealSense SR300