基于多视角投影及深度学习的三维物体识别研究文献综述
2020-04-15 17:44:25
随着计算机性能的提升和数字多媒体处理技术的快速发展,三维模型在机器人仿真,自动驾驶,人机交互等领域应用越来越普及[11,13]。因为自然世界中的三维物体自身的高维度、真实性等特性,在生物识别、自动驾驶、人机交互等应用领域上三维模型具有比以往二维图像更广泛的应用场景。这种新的传媒载体因和现实世界的相似,非常适合与人机交互,在AR,VR,MR上的应用越来越普遍,比如Miscrosoft HoloLens设备能够不受线缆限制的与数字内容交互,并与周围真实环境中的全息影像互动。利用其真实性特点,在生物识别尤其是人脸识别登陆认证方面,在iPhone X引入Face ID,在Android8.1以后引入的人力识别功能,利用用户的3D脸部模型唯一性(近似)实现刷脸认证,和传统的指纹识别认证方式相比安全性有了很大的提高。
经过多年的研究,计算机视觉在字符图像识别和二维图像物体分割、分类、识别的问题上取得了较大的发展,在公开的数据集上取得了90%以上的准确率[15],但是在二维图像的成像过程中,丢失了大量物体本身的三维信息[12],所以蕴含三维信息的三维模型在物体识别的问题上的如何使用正在收到学者们的关注。三维物体识别还拥有一些二维图像物体识别研究中所不重点关注的问题,比如物体的姿态(位置和姿态),这些信息在在机器人对环境的感知和无人驾驶车辆对周边车辆的识别上面有着丰富的应用[15]。三维物体识别问题虽然在数据集上的识别准确度达到了90%以上,但是一个通用的高效的系统目前没有广泛的使用,现在只是在某一类模型上面进行识别对比,比如人脸模型,而且实时性要求不高[15]。
类别级物体识别与检测属于计算机视觉领域的一个基础性问题[14],本文的工作则是三维模型应用的最重要也是最基本的应用-三维物体分类问题。
国内外的研究现状分析:
三维物体识别是计算机视觉领域中最基本的问题之一[15]。三维物体的识别是在二维图像的识别的基础上进一步扩展而来,而在二维图像分类上广泛应用的深度学习网络能否推广到三维模型的识别的问题上呢?答案是可行的[MVCNN,PointNet等]。首先,三维模型的获取越来越方便,3D模型的数据集在广义上包括点云,CAD数据集,RGBD图像(2.5D图像,能够扫描重建三维模型[12]),传统的CAD公开数据集,比如ModelNet,ShapeNet也在研究领域被广泛应用而深度图像的2.5D图片的获取越来越简目前ScanNet数据集能够通过iPad上的ScannerApp和Structure.io传感器就能够获得RGB-D图像。另一方面,基于视图的研究方法的提出,则自然的将基于深度学习的二维图像的相关的研究成果应用于三维图像的识别。
1.深度学习
从80年代至今,机器学习的发展经历了浅层学习和深度学习两个阶段。从早期的机器学习方法开始,代表性的神经网络就是基于反向传播算法训练的多层感知器 (MLP)的人工神经网络。人工神经网络是一种描述生物神经网络机理的抽象和简化的模型,它主要是使用路径权值的有向图表示模型中的人工神经元节点和神经元之间的连接关系。现在主流的深度学习模型则包含了多个隐藏层,包括卷积神经网络,递归神经网络(RNN),长短期记忆网络(LSTM) 等网络[13]。
目前,在物体检测和跟踪任务,基于卷积神经网络的框架有着良好的表现,能够保持很高的检测准确率,同时通过共享卷积特征的方式也能够达到高效的检测效率。在原理上,卷积神经网络相比传统的浅层神经网络,要复杂很多,每一层的神经元都会使用局部连接,神经元连接权值以及时间和空间上进行降维。卷积神经网络会对输入进行提取特征以及特征的映射。一张图片在输入到卷积神经网络之后,卷积层利用已经训练好的多个滤波器对图像进行卷积操作得到对应的特征图,得到多张卷积特征图会由特征映射层将其进行权值和偏置操作后通过后续的激活函数映射到新的特征图。这些操作不会改变特征之间的相对位置,使得卷积神经网络在识别时对图像的扭曲,缩放以及平移都具有很强的鲁棒性。
2.基于深度学习的三维物体的识别