基于BoW模型的图像分类方法研究毕业论文
2021-08-31 23:43:47
摘 要
计算机视觉领域中有一个非常重要的一个问题——图像分类问题。在图像检索、机器人领域、医学领域、遥感图像的分类等各大领域及应用中,图像分类都扮演着一个重要的角色。在现如今科技高速发展,“图像时代”的来临这样一个背景下,图像信息越来越多,要如何正确地对这些图像信息进行分类已经成为了人们迫切追求的目标。
本文主要研究的是基于BOW模型的图像分类方法,SIFT和SURF这两种特征提取的算法对于图像的尺度、旋转、光照化及视角等变换上具有良好不变性,正是因为这些特点使得SIFT算法和SURF算法成为图像分类中经常使用的方法。
本文首先介绍了图像分类的研究背景、意义和应用,之后再对BOW模型的思想进行了阐述,然后实现了BOW模型的算法:先由SIFT和SURF两种特征提取的方法提取出特征向量,之后再运用k-means聚类算法构建视觉词典,最后用SVM分类算法对测试图片进行分类,得出最终结果。
关键词:BOW模型、SIFT、SURF、k-means算法、SVM算法
Abstract
Image classification is an important problem in the field of computer vision.Image classification plays an important role in image retrieval, robotics, medical field, remote sensing image classification and so on.Nowadays, due to the rapid development of science and technology, and the arrival of "the image time", the number of image information is increasing rapidly, how to correctly on the image information classification has become the goal of people seeking urgent.
This paper mainly studies the image classification method based on the BOW model, SIFT and SURF of the feature extraction algorithm has the invariance for image scale, rotation, light and perspective transform, due to these characteristics, SIFT and SURF become the most used method of the image classification.
In this paper, we first introduce the background, significance and application of image classification, and then we described the BOW model, and then realize the BOW model algorithm: using the SIFT and SURF feature extraction method to extract feature vectors, and then using k-means clustering algorithm to construct a visual dictionary, finally use the SVM classification algorithm to classify the test images, and obtain the final result.
Key Words: BOW model; SIFT; SURF; k-means; SVM
目录
摘要 I
Abstract II
1 绪论 1
1.1 研究背景及意义 1
1.1.1 研究背景 1
1.1.2 研究意义 2
1.2 研究现状 2
1.3 本文主要研究内容 3
2 BOW模型的基本原理 4
2.2 图像分类的概念 4
2.2 BOW模型介绍 4
2.3 BOW模型技术的实现 6
2.3.1 特征值提取的方法 6
2.3.2 构建视觉词典 10
2.3.3 训练分类器 11
3 算法的设计与实验结果的分析 15
3.1 OpenCV简介 15
3.2 基于BOW模型的图像分类算法的设计 16
3.3 实验条件 17
3.4 实验结果与分析 18
4 总结与展望 21
参考文献 22
致谢 23
1 绪论
1.1 研究背景及意义
1.1.1 研究背景
图像是人类获取,表达和传递信息的重要手段,是信息的重要载体。研究表明,人类获取外界信息有听觉,视觉,触觉,嗅觉和味觉等方法[1]。在人类获取的信息中,20%的信息来自于听觉,60%的信息来自于视觉,而剩下的20%则来自于触觉,嗅觉和味觉等方法。有一些俗语说的好:“百闻不如一见”、“一目了然”都显示出图像信息作为传递信息的重要手段以及显示出了图像信息在信息传递中的重要性。
近年来,随着现在科技与经济的高速发展,拍照的人们越来越多且网络对人们来说已经是必不可少,网络中的图像信息包含了占了现在总图像信息一大部分的比例。相比于文本信息,图片所含有的信息量更大,对信息的描述更加生动和直观。我们正在走入一个图像世界,正如海德格尔所说的那样,一个“图像时代”正在来临[2]。
然而,这样的一个“图像时代”却造成了一个尴尬的局面:一方面,大量的图像信息涵盖了人们所需要的所有信息;另一方面,人们却无法在这大量的信息之中找到自己所需要的准确的图片信息。所以这就迫切地需要人们发展科学技术以快速地对海量的图像信息进行分析,从而快速地找到自己所需要的有价值的信息。
实现这个方法早期使用的是多类别的图像分类的方法,首先人们通过观察图片的特征并用相关的文字进行标注,这些文字就作为图片的关键词,然后再用文本信息管理技术对图片的关键词进行自动组织和检索。这个方法看起来可行,但是随着图片信息指数型增长的今天来说却是不可行的。据统计,2014年全球的照片就超过了8000亿张,如此庞大的数量使得多类别的图像分类的工作量增加,效率变低,甚至无法分类。其次,不同的人的生活环境、教育水平、语言背景和对图片的理解也大不相同,而且文本难以描述图像中丰富的内容[3]。由于这些原因,图片上的关键词的标注就受到了影响,使得关键词出现了歧义,甚至使得图片的主题丢失。多类别的图像分类方法的缺陷使得人们需要寻求一个更好的方式。
为解决多类别的图像分类方法的缺陷,在20世纪70年代产生了图片检索的技术,这种技术在20世纪90年代发展成为了基于内容的图片检索(Content-based Image Retrieval,CBIR)的技术[4],CBIR直接检索图像的底层视觉特征,用户输入一张图片时,系统通过提取图片的底层视觉特征与数据库中的图像的底层视觉特征进行相似性比较,返回根据相似度排序的搜索结果。这样做可以不用相关的文字为图片标注,省去了的人工标注的过程,是一种更加实用的图片管理方式。但是在实际的操作中CBIR不管在应用上还是技术上都还有一定的缺陷。