基于粗集属性约简的多分类器集成系统毕业论文
2020-04-15 21:53:16
摘 要
随着人类社会的进步,互联网的发展,自然科学的研究越来越多的信息出现在我们的世界之中,这些信息隐藏着许多有价值、有重要意义的数据,而多分类器集成系统就用来帮助我们从繁多的信息之中找到我们所需要的重要信息。对于庞大的数据集来说,我们没有办法去校对其每一个属性,所以我们需要使用到粗糙集理论将这些不确定的、模糊的属性进行约简得到能确定的、可分辨的数据,从而使得多分类器集成系统拥有更优良的分类能力。
本文所要研究的就是基于粗集属性约简的多分类器集成系统。通过计算原始数据,将这些数据进行简化,得到约简之后的数据集。通过对若干组约简之后的数据集训练若干组单独的个体分类器,然后使用遗传算法根据相对多数表决方法来集合若干组单独的个体分类器。不同的若干约简数据集所得到的个体分类器提供了不同的信息,而这些信息相互补充,相互协同。最终得到的这个多分类器集成系统拥有比单个的个体分类器更加好的分类能力,并且只使用了少量的个体分类器。
关键词:集成学习;粗糙集;属性约简;多分类器集成
Multi-classifier integrated system based on rough set attribute reduction
Abstract
With the progress of human society and the devasdelopment of the Internet, morasde and mdwqore informgqation of natural scieasdnce appears in our world. These information hides many valuable and significant data, and the multi-classifier integration system is used to help us find the important information we need from a variety of information. For large data sets, we can not proofread every attribute, so we need to use rough set theory to reduce these uncertain and fuzzy attributes to obtain deterministic and distinguishable data, so that the multi-classifier integration system has better classification ability.
In this paper classification istinguishable, a multi-classifier ensemble the reduced data set rough set attribute reduction is studied. By calculating the original data, these data are simplified and the reduced data set is obtained. After training several groups of individual classifierssystem based on for several reduced data sets, a genetic algorithm is used to set several groups of individual classifiers according to the relative majority voting method. Individual classifiers from different reduced datasets provide different information, which complement and cooperate with each other. The resulting multi-classifier integration system has better classification ability than a single individual classifier, and only a small number of individual classifiers are used.
Key Words: ensemble learning; rough set;attribute reduction;Multi-classifier integration
目 录
摘 要 I
Abstract II
第一章 绪论 5
1.1 本课题研究的背景和实际意义 5
1.2 国内外研究现状 6
1.2.1 决策树分类方法 7
1.2.2 K近邻(k-nearest neighbors,KNN) 分类方法 7
1.2.3 贝叶斯分类方法 8
1.2.4 神经网络分类方法 8
1.2.5 支持向量机(SVM,Support Vector Machine)分类方法 9
1.2.6 模糊集分类方法 10
1.2.7 粗糙集分类方法 10
第二章 相关理论知识 11
2.1 粗糙集的发展历史 11
2.2 粗糙集的基本概念 11
2.3 集成系统 13
第三章 实验部分 14
3.1 总体设计流程 14
3.2 实验步骤 16
3.2.1 对x求原始数据中关于条件属性的等价类 16
3.2.2 计算对象x的条件概率 16
3.2.3 计算集合X的上近似,下近似 17
3.2.4 计算相对正域和决策属性对所有条件属性子集R的依赖度 18
3.2.5 求所有条件属性的依赖度 19
3.3 实验结果以及分析 20
第四章 总结 23
参考文献 24
绪论
1.1 本课题研究的背景和实际意义
人类在这么多年的生产和科学研究中发现和提炼了大量的自然的规律,这些人们所发现的自然规律被我们总结为知识。通过这些知识人们用它来认识和改变这个世界,同时也在推进的人类自身不断的前进。
由于人类自身的发展,对自然的探索,互联网时代的到来,在各个领域之中,都产生了海量的数据资料,并且这些数据也会随着人类的活动无时无刻的在增长。例如:北京的交通摄像头监控系统监管着五百多万辆的汽车;在2018年“双十一”活动中淘宝仅仅一天就产生了十五亿笔的交易记录。这些数据蕴含了丰富的有用信息与知识,人们使用数据库将这些数据进行收入、排版、和统计,但是还是无法发现这些数据之间存在着怎样的关系“信息泛滥,知识匮乏”的局面依然普遍存在。 如何从庞大的、有噪声的数据中获得有价值的、有意义以及对我们有帮助的知识成为目前科学界的一个重要的研究对象。
人们想要通过对这些庞大的数据信息的各个方向、各个层次进行分析,在企业发展、科学研究、政府统筹等方面给予他们所需要的信息。所以对于“信息泛滥”来说我们迫切的需要数据库知识发现(KDD)方法来解决这个问题,把“信息泛滥”变成真正对人们有价值的重要知识。 Fayyad和Piatetsky-Shapiro在二十世纪末给出了广泛接受的知识发现定义。知识发现是一个非常重要的过程,可以把繁多、冗长的数据中的有意义的,新颖的,可能是有用的信息提取出来。