小样本数据特征提取方法研究毕业论文
2021-10-26 21:56:57
摘 要
近年来随着计算机设备和科学技术的发展与进步,作为数据挖掘、数据分析等领域的主要技术和手段,特征提取分类技术已经逐渐成为热门的学术研究领域和方向。而且特征提取分类技术可以对数据进行特征提取和特征分类,从而得到小样本数据间隐藏的信息和数据变化规律,因此对于小样本数据集的特征提取分类方法的应用和研究已然变得异常火热。目前,对小样本数据的特征提取分类方法已经进行了多方位的应用和研究,有采用多种算法方法对初始数据进行了扩充,也有选择多种降维的方法对小样本进行了降维,然后合并所有降维的结果,还有选择对初始的样本进行降维,同时合并初始的样本和降维后的样本数据。因此,如何对小样本数据分进行样本数据的降维、特征提取和特征分类是小样本数据特征提取的一大技术难点。
本文以高光谱实验作为主要研究的对象,借鉴了人脸识别技术领域的Fisherface特征提取算法来对小样本进行了研究。首先根据目前所查阅的资料和文献,分析了现有的各种数据特征提取分析算法的优缺点,对各种算法的性能进行结合,从而提出新的基于边界的小数据样本特征提取算法。然后研究新算法对高光谱实验数据的分类性能,选取不同的分类数、不同数量的训练集和不同数量的测试集进行高光谱多分类实验。之后,进行了新算法内的纵向对比和与传统算法间的横向对比,从而得到新算法在不同数目的训练集上有着不同分类精度性能,同时也验证了新提出的算法比传统的PCA或者LDA算法有着更好的数据分类精度。
关键词:小样本问题;特征提取;特征分类;数据降维;线性判别
Abstract
In recent years, with the development and progress of computer equipment and science and technology, as the main technology and means in Data Mining, Data Analysis and other fields, Feature Extraction Technology has gradually become a hot academic research field and direction.In addition, Feature Extraction Technology can be used to extract and classify data, so as to obtain the hidden information and data change rules among small sample data. Therefore, the application and research of Feature Extraction Technology for small sample data sets have become extremely hot.At present, the Feature Extraction Technology for small sample data has the all-round application and research, have adopted a variety of algorithm method on the initial data expansion, as well as methods to choose a variety of dimension reduction for small sample dimension reduction, and then merge all the result of the dimension reduction, and choice of the initial samples for dimension reduction, with the initial samples and the sample data after dimension reduction.Therefore, how to conduct dimensionality reduction, feature extraction and feature classification of small sample data is a major technical difficulty in feature extraction of small sample data.
Based on the Fisherface feature extraction algorithm in face recognition technology, this paper takes the hyperspectral experiment as the main research object to study the small samples.Firstly, based on the existing information and literature, the advantages and disadvantages of various existing data feature extraction and analysis algorithms are analyzed, and the performance of each algorithm is combined, so as to propose a new algorithm for small data sample feature extraction based on boundary.Then, the classification performance of the new algorithm for hyperspectral experimental data was studied. Different classification Numbers, different Numbers of training sets and different Numbers of test sets were selected for hyperspectral multi-classification experiment.After that, the longitudinal comparison within the new algorithm and the horizontal comparison between the new algorithm and the traditional algorithm are carried out, so that the new algorithm has different classification accuracy performance in different number of training sets. Meanwhile, it is also verified that the new algorithm has better data classification accuracy than the traditional PCA or LDA.
Key Words:Small sample problem;Feature extraction;Feature classification;Data dimension reduction;Linear discriminant
目录
摘 要 i
Abstract ii
第1章 绪论 1
1.1 研究背景及意义 1
1.2 小样本问题 2
1.3 小样本数据特征提取方法国内外研究现状 2
1.4本文研究内容及章节安排 4
第2章 PCA类算法和LDA类算法 6
2.1 PCA原理公式 6
2.1.1 最大化方差法 7
2.1.2 最小化损失法 7
2.2 LDA原理公式 9
2.3 KPCA和KLDA 12
2.3.1 KPCA 13
2.3.2 KLDA 15
2.4本章小结 16
第3章 优化后的小样本特征提取算法 17
3.1 PCA LDA 17
3.2 KPCA LDA 19
3.3 PCA KLDA 20
3.4 本章小结 22
第4章 实验结果与分析 23
4.1 实验数据 23
4.2 实验过程与结果分析 24
4.3本章小结 30
5 总结与展望 32
5.1论文总结 32
5.2展望 33
参考文献 34
致谢 35
附 录 36
附录1 PCA LDA 36
附录2 KPCA LDA 41
附录3 PCA KLDA 47
附录4 PCA 65
附录5 LDA 70
第1章 绪论
1.1 研究背景及意义
随着技术的进步和科学的发展,数据在人们日常生活中的重要性日益得到体现。数据贯穿着生活中的方方面面,将数据中隐藏的信息挖掘出来,会对现有的生产生活有着极大的帮助,让人们能够更好的认识世界,改造世界。在现有阶段,研究人员通常选择使用模式识别领域的特征提取算法,对采集到的数据进行降维和判别分析,然后获取有用的信息并获取规律。从统计学来说,要从样本数据中很好的学习到其网络结构组成和分布构成,样本数据的数量越大越好。通常情况下,对于某一算法或问题,随着其数据集数量和规模的不断增加,各特征与样本之间的关系会更加精确,因此,出现了众多的大数据规模大样本数据集的特征提取算法。
但是在日常的科学研究中,由于时间、环境、技术等多方面客观因素的不足,通常只能够获得小样本数据集,其数据数量较少。在很多诸如医学,地理学科,机械制造等方面都很难取得较大样本的大数据集,导致无法获取到有效可利用的信息。因此,如何从样本数量有限的数据集中提取出更好的数据结构,并对其进行准确分类,成为一个亟待解决的问题。