基于生成对抗网络的语意图像分割文献综述
2020-04-15 20:29:37
语意图像分割是指根据图像的不同像素级别,将一些原始数据作为输入并将它们转换为具有突出显示的感兴趣区域的掩模,使得分割得到的相同区域的纹理和灰度相似,而相邻区域对分割的依据特点有明显差异,从而将图像区分为若干个不同的区域,并使用迥异的彩色对图像不同区域进行标注分类的过程。在当今时代,随着机器学习和人工智能的兴起,计算机视觉技术受到广泛的关注。语意图像分割作为计算机视觉技术的热点研究方向,主要应用于地质检测、自动驾驶、面部分割、服装分类以及农业精准灌溉等重要领域中。
图像分割技术自1970年以来受到众多研究人员的广泛关注,并提出了基于阈值、基于区域、基于边缘检测等传统语意图像分割算法。但受限于难以处理较复杂图像,人们着手于结合特定工具进行语意图像分割,如小波变换、结合马尔可夫理论和贝叶斯理论的MRF以及1973年由Holland提出的GA。随着机器学习和人工智能的兴起,模式识别、机器视觉等领域迅猛发展, ANN(人工神经网络)被用于语意图像分割,出现了基于像素数据和基于空间区域两种类型的语意分割方法。Jianbo Shi和Jitendra Malik在TPAMI上首度提出Normalized cut(N-cut)方法。此方法基于图划分理论,考虑全局和局部信息,提出Min-cut algorithm等图像语意分割算法,成为前DL时代最著名的语意图像分割方法。2015年Trevor Darrell组在计算机视觉领域CVPR会议上发表用于语意图像分割的全卷积神经网络,标志着语意图像分割正式进入DL(深度学习)时代,并出现了dilated convolutions以及Conditional random field等重要分割方法。
启发于二人零和的博弈论理论与纳什均衡原理,Ian J.Goodfellow等人于2014年在Neural Information Processing Systems上发布文章Generative adversarial nets,首度提出生成对抗网络模型(简称GAN),其模型框架主要包括一个生成模型G和一个判别模型D,其中G用于获取样本数据的分布情况,D用于判定样本来自真实训练数据的概率。文章一经发表,迅速掀起GAN用于深度学习领域的热潮:同年M.Mirza等人发表了Conditional generative adversarial nets(简称CGAN),通过输入额外条件y,克服了生成模型G的生成样本x完全随机的情况;2015年Alec-Radford等人提出DCGAN,将CNN引入到生成对抗网络中,提高了生成模型G的生成能力并使判别模型D的判别结果更加稳定;同年,Emily Denton提出LAPGAN,通过laplacian Pyrami实现了高质量图片的生成;2016年Sebastian Nowozin等人在NIPS上发表f-GAN:Training Generative Neural Samplers using Variational Divergence Minimization,提出FGAN模型,并将KL散度引入;2016年Xi Chen提出infoGAN,通过引入潜在编码c,实现了对生成图片属性的控制;以及SeqGan、LSGAN和WGAN等生成对抗网络模型的提出,关于GAN模型的研究已成为热点问题。有别于传统图像分割方法将像素点逐个进行分类,GAN的生成模型G被图像像素分类的网络替换,充分考虑了图像语意分类时的区域因素,并通过判别网络D来判别语意分割的结果是真实结果还是生成模型的生成结果。在人工智能和深度学习时代,将判别模型中具有开创性的GAN方法用于语意图像分割,必将带来很多新的创新,成为计算机视觉领域的热点研究方向。
{title}
2. 研究的基本内容与方案
{title} 2.1 研究的基本内容和目标
本文拟采用深度学习技术,研究基于生成对抗网络的语意图像分割算法,针对传统图像分割方法对像素点逐一分类,忽略图像区域性的特点,采取卷积神经网络描述生成模型和判别模型,在公开数据集上测试图像分割效果,并通过主观和客观的评价方法,验证模型的优越性。
2.2 拟采取的方案和措施
基于GAN的语意图像分割是依据GAN原理,对未知标签图像进行语意分割分类,在半监督的框架下,实现对未知情形的尽可能充分地掌握,便于人们做出合理决策。以具有标签类别与像素数据的游戏街道场景和只具有像素数据的真实街道场景为例,其算法过程如下:
Step1:给定初始准确率accuracy,利用游戏街道样本数据提取特征,用于训练判别模型D,使来自样本的数据通过判别模型,输出相比已知数据标签的准确率大致为accuracy;
Step2:对于真实街道样本数据提取特征,并加入随机噪声,通过生成模型G产生生成数据特征,输入判别模型,判断符合真实数据分布的概率p。若p=0.5,则算法终止,记录此时的模型D为C;若plt;0.5,则转到step3;
Step3:降低accuracy,转到step1。
其中判别模型D采用深度学习中的卷积神经网络进行判别,通过不断调整参数进行迭代,在生成对抗网路的框架下,即可得到最终的判别模型C。将真实街道数据输入C,即实现了对真实街道数据的分类,也就完成了对真实街道数据的语意图像分割。
本文将利用python的pytorch深度学习库实现基于GAN的语意图像分割。首先应学习并熟练pytorch的一些基本用法以及GAN原理,了解pytorch用于图像分割的基本框架及各参数含义;其次构建基于GAN的语意图像分割框架,在不同的公开数据集上进行训练测试并调整参数;最后将各种方法的测试结果进行对比,验证本文所用算法的优越性。
[1] Goodfellow Ian,Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]//Advances in Neural Information Processing Systems.(NIPS 2014) , 8-11th,December: 2672-2680.
[2] Denton E L, Chintala S, Fergus R. Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks[C]//Advances in neural information processing systems.(NIPS 2015),7-12th,December: 1486-1494.
[3] Radford A, Metz L, Chintala S. Unsupervised representation learning with deep convolutional generative adversarial networks[J]. Computer Science:1511.06434, 2015.
[4] RAYMOND A, CHEN CH, LIM T Y,et.al. Semantic image inpainting with deep generative models[C]. IEEE Conference on Computer Vision and Pattern Recognition(CVPR 2017), 21-26 July: 5485-5493.
[5] Swami Sankaranarayanan, Yogesh Balaji, et al. Learning from Synthetic Data: Addressing Domain Shift for Semantic Segmentation[C]. IEEE Conference on Computer Vision and Pattern Recognition(CVPR 2018), 18-23,June:3752-3761.
[6] Kiana Ehsani, Roozben Mottaghi, Ali Farhadi. SeGAN: Segmenting and Generating the Invisible[C]. IEEE Conference on Computer Vision and Pattern Recognition(CVPR 2018), 18-23,June:6144-6153.
[7] K. Bousmalis, N. Silberman, D. Dohan, D. Erhan, and D. Krishnan. Unsupervised pixel-level domain adaptation with generative adversarial networks[C]. IEEE Conference on Computer Vision and Pattern Recognition(CVPR 2017),. 21-26 July:95-104
[8]税留成,刘卫忠,冯卓明.基于生成式对抗网络的图像自动标注[J].计算机应用,2019,39(03):1-6.
[9]刘航,李扬,袁浩期,王俊影.基于生成对抗网络的语音信号分离[J].计算机工程:2019,45(03):1-8.
[10]李凯,彭亦功.基于生成对抗网络的图像识别改进方法[J].计算机工程与设计,2019,40(02):492-495 532.
[11]王旺,徐俊武.基于GAN的图像超分辨率方法研究[J].软件导刊,2019,18(01):1-4.
[12]吴华明,刘茜瑞,王耀宏.基于生成对抗网络的人脸图像翻译[J].天津大学学报,2019,52(03):306-314.
[13]唐骞.基于对抗学习的图像修复[J].计算机产品与流通,2019,36(01):210-211.
[14]蒋芸,谭宁,张海,彭婷婷.基于条件生成对抗网络的咬翼片图像分割[J].计算机工程,2019,45(03):1-6.
[15]杨红亚,赵景秀,徐冠华,刘爽.彩色图像分割方法综述[J].软件导刊,2018,17(04):1-5.
[16]杨朔,陈丽芳,石瑀,毛一鸣.基于深度生成式对抗网络的蓝藻语义分割[J].计算机应用,2018,38(06):1554-1561.
[17]张营营.生成对抗网络模型综述[J].电子设计工程,2018,26(05):34-37 43.
[18]罗冰. 语义对象分割方法研究[D].四川:电子科技大学博士毕业论文.
[19]曹攀. 图像语义分割研究[D].江苏:江南大学硕士毕业论文.