基于聚类和决策树合成的数据挖掘算法外文翻译资料
2022-08-31 17:12:46
英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料
基于聚类和决策树合成的数据挖掘算法
摘要:随着信息技术和计算机科学的发展,大量的数据出现在人们的生活中。为了帮助人们分析和挖掘出有用的信息,数据挖掘技术的产生与应用至关重要。聚类和决策树是数据挖掘的主要使用方法。聚类可用于描述,决策树可以用于分析。有效地结合这两种方法,我们可以清晰地发现数据的特征与潜在规则。本文提出了一种名为CA新的综合数据挖掘算法,从而提高CUBE和C4.5的原有算法。CA引入了可以实现对大规模数据集进行特征降维和规模缩减的主成分分析算法(PCA),网格划分算法和并行处理算法。本文将CA算法应用于玉米选种上,实验结果显示CA算法比原来的算法更好。
关键字-聚类;决策树;玉米选种
I引言
目前,因为幅员辽阔和各种各样的农作物资源,我们已经积累了丰富的农业信息数据,但是,由于缺少可用的工具,我们只能访问小部分的数据。此外,农业本身具有一些特殊性,比如作物资源的复杂性,肥料水,厚度和气候的影响,这些使信息数据和存储库趋向于大规模,高维的,动态的,不完整和不确定性,让我们很难管理。然而,数据挖掘可以通过不用的技术来描述和预测不同的数据集或知识,来找出潜在的规则或模型。所以我们可以有效地解决这些农业难点,数据挖掘在农业方面的应用与发展将很自然地成为一个新的研究点。
聚类和决策树是数据挖掘中两种主要的使用方法,在信息数据研究上给我们带来了便利。本文将基于这两种算法的优缺点选出最佳算法来满足不同的应用条件。聚类是一个属于无监督学习方面具有挑战性的研究领域。我们需要的簇的数目是未知的,但集群的形成完全是数据驱动。聚类可以是其他算法预处理部分或作为独立的工具来获得数据分发,并且还可以发现孤立点。常见的聚类算法如K-MEANS, BIRCH, CURE, DBSCAN等。每一种算法都有各自的优点:K- MEANS算法简单易于理解,DBSCAN可以很好地过滤噪声,CURE是不敏感的输入等。但是现在没有一种算法可以满足任意情况,尤其是大规模高维数据集,所以对我们来说改善和发展聚类方法是很重要的。
分类是数据挖掘的一项重要任务,它的目的是建立一个分类模型和所有样品至某一类它可以提供许多便利为人们进一步分析数据映射。分类属于导向的学习,主要方法包括决策树,贝叶斯分类,神经网络,遗传算法和粗糙集等,而大多采用决策树算法ID3和C4.5由J. R.昆兰呈现。许多传统的方法是基于他们的改善。但也还存在着像多值BIOS的一些问题和树木等,这就需要我们深入研究。本文改进了像CURE和C4.5传统算法适当,并提出了挖掘大型高维数据集合成新的CA算法。 CA的基本思路如下图所示:先介绍PCA分析特征之间的相关性和替换可数的几个功能复合整个数据集;然后提高CURE分手设定成几个簇可以是其他算法的预处理和实现样本规模的减少;最后介绍并行处理成C4.5,以提高建设决策树的效率。本文适当改进了CURE和C4.5两种传统算法,并提出了挖掘大型高维数据集合成新的CA算法。 CA的基本思路如下所示:先介绍PCA分析特征之间的相关性和替换可数的几个功能复合整个数据集;然后提高CURE分手设定成几个簇可以是其他算法的预处理和实现样本规模的减少;最后介绍并行处理成C4.5,以提高建设决策树的效率。
本文的其余部分安排如下。第2节介绍聚类和决策树方法粗略的背景。第3节阐述了详细的CA合成算法包括三个重要部分:功能减少,减少的规模和决策树分类。然后给了CA算法的流程作了明确规定。第4节一个应用程序,并应用到CA玉米良种繁育希望能找到它的一些潜在有用的信息。本部分给出了具体的计算方法,并与传统的方法的结果相比较。实验结果表明在处理的玉米样品的更好的效率。第5节设计了一个玉米良种繁育体系来实现我们需要的功能。结论和今后工作方向的讨论在第6节中给出。
II背景
- 聚类方法
聚类分区是基于理论:“物以类聚,人以群分”。在相同的簇的试样应该是最相似的,而在不同的簇的试样应该是最不同的。根据聚类螺纹,我们可以将聚类分为几种类型,其中包括分区聚类,层次聚类,基于密度的群集,基于网格的聚类,基于模型的聚类和基于图的聚类。
分区集群一般包括K-均值,K- medoids,PAM,CLARA,CLARANS等,大多采用的算法是K-是指可以处理小数据集凸最好。但它也存在一些缺点。例如,它只能处理数字数据,发现凸或球形面,对输入和噪声比较敏感,并且不能与大型数据集处理。
- 决策树方法
决策树是分类中的重要分析方法之一。它通过选择重要的联想功能建立其最优树模型。虽然测试的属性和样本集分区的选择是建设树上的两个关键部分。不同的决策树方法将采用不同的技术来解决这些问题。传统的算法包括ID3,C4.5,CART,SPRINT,SLIQ等ID3是决策树方法的代表性。这是很容易理解并具有快速的分类速度,这是适用于大型数据集。许多决策树算法是基于改进它,像C4.5,SLIQ。但是,这些算法或多或少都有在测试特性,样品的类型,数据的存储利用率和树木修剪选择一些问题等。目前,研究人员目前许多改进。参考[19],[20],[21]优化与多值的BIOS问题连接的原始方法。参考[22]改善试验中算术运算的计算属性。参考文献[23]采用遗传算法进行修剪决策树。决策树方法相结合遗传算法和模糊集理论文献[24]提出了。参考文献[25]中描述的ID3哈斯克尔语言和程序转换带出了一种改进的算法。
III CA算法简介
CA算法是基于能实现特征降维、规模约简和分类分析的传统算法如PCA、CURE、C4.5等提出的。 现在介绍其主要思想和程序。
- 特征降维
PCA是掌握事务的主要矛盾的统计分析工具。它可以从多元化的问题找出主要影响因素,获得事物的本质,并简化复杂的问题。 PCA的目的是映射高维数据到低维空间中。它通过压缩数据集的初始的规模和利用有限的变量,以反映主要功能,可以体现原始变量以及一定的现实意义。
CA算法结合PCA和相关系数,可以使未来的角色反映原始数据集称道。我们可以根据主成分系数因素,确认相关特征的权重值,并获得新的功能集替换原有的特色。通过这样做,我们可以减少计算消耗的功能数量,最终实现功能降低。具体做法如下所示:
1)规范整个数据集。
2)计算相关系数矩阵。变量X和Y的相关系数为(1)中。
而x和y是平均值。
正如我们所知道的,相关系数越大,特征就越高。通过分析矩阵,我们可以找到相关的功能。组在一起作为一类。
- 实施PCA,以标准化的数据集。让后确定主成分的数量,我们可以计算出分别等量的特征向量,并建立一个系数因子矩阵。系数因子越大,越高的特征将被相关联。然后将它们分组为一类。
- 合并上面获得的类。组合的原理是:如果类重复两次或更多的功能,就组合在一起,否则把它当成一个孤立的。
- 获取一个新的功能集。每个主成分是由每一个特征值组成,并且每行系数的因素能反映要素的重要性。因此,我们可以得到系数因子矩阵的权重值。加权值和新特征的计算示于(2)-(3)。
(2)
(3)
而“a”是主成分的数目,是某些相关的特征的系数因子,是第i个分量系数因素求和,Vj是对应特征值,是新的特征值。
- 规模约简
CURE算法是一种层次聚类算法。它采用了一种新的聚类分析,它是由恒定数目的良好分散点来表示簇。这是从信号质心或全点战术不同。然后我们可以根据分数对alpha;合并重心缩小样本。是alpha;等于1时,所有积分将收缩到质心点。而如果alpha;等于0,则算法应该考虑整个数据,这将增加计算consummations极大。所以,CURE可以区分非球形或非均匀簇和根据表示点处理异常数据和收缩的因素。
我们知道,CURE使用其层次聚类算法仅在一个分区这将点可能带来较高的计算。然而,K-MEANS具有在处理小规模的数据集的良好效率。如果我们引入分区K-MEANS算法,并通过集群CURE聚类法的思路所有这些小群,我们可以极大地降低了运行时间,也取得了良好的效果。
在这里,我们提高CURE算法在CA算法中的比例。首先介绍了网格划分的理论。然后实现改进的K-MEANS每个网格的样本英寸。最后,聚集所有CURE算法中的小聚类。详细过程如下:
- 实施异常值分析。特征还原后,数据一般都在[-2.02.0]的范围内。如果任何数据超出这个范围,我们可以把它当作一个不相干的或特殊的点。我们可以通过分析这些异常值从中获取一些有用的信息。
- 网格分区。根据网格划分的概念,我们可以把所有样本分成许多网格不管样本有多大尺寸。
- 改进的K-MEANS方法。这种方法调整聚类中心,减少了运行的迭代。在每个网格使用K-MEANS可以增强集群的速度和确保小规模的本地零部件的效率。
- CURE方法。CURE通过代表点和收缩的因素来聚集样本。我们可以调整这些因素,以获得最佳的结果。结果与原CURE算法相比,存在一些差异:
a)更换与异常值分析随机抽样。
b)更换速度划分了网格划分。
c)使用改进的K-MEANS来划分样本。
d)群集中的所有小群,而不是信号样本。
- 决策树分类
决策树分类是一种广泛使用的逻辑它适用于自上而下的递归模式构建方法
树木。构建树的优先级就在于良好的逻辑判断或功能的选择。将有按照相同的数据集的各种不同的树。通常,树越小,它具有较强的预测能力。因此,要建立一个简单的小树上,关键是要选择合适的测试功能。众所周知,ID3和C4.5为决策树最经典的算法。他们有一些需要我们进一步研究的公共缺点:
- 它们不能追踪搜索样本的过程。
- 他们将使用分类全样本从而真正可以减少孤立点或噪声的敏感度,但是同时增加了计算量。
- 其中多值考虑功能和目标之间过度的相关BIOS问题。
- 样品分类过拟合的问题。
CA算法的决策树分类部分是基于C4.5改进,改进主要体现在门槛分区和测试功能的选择。详细步骤如下:
- 它引入信息增益率。
- 它可以处理连续的特点。
- 可避免预剪枝和后剪枝过拟合的问题。
- 它选择的样本的一部分,作为训练集,以及其他样本作为测试集。他们可以很好地验证每一个。
- CA算法的具体流程
CA算法的具体流程如图1
图1.CA算法流程
IV CA算法的应用
目前,信息技术已成为我国农业的中坚力量。计算机网络,地理信息和遥感技术等先进领域知识,促进了农业的发展。在这里,我们结合了数据挖掘技术专业知识的一部分,在玉米育种应用CA算法希望能找到育种一些有用的信息。原来的数据集包括51例具有许多功能。我们从中选择8个属性这是期,株高,穗位高,穗长,穗粗,穗行的种子,分别为每行和输出的种子数。该数据集写在表1中。f1-f8分别对应上面选中的8属性。
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[147759],资料为PDF文档或Word文档,PDF文档可免费转换为Word
No |
f1 |
f2 |
hellip; |
f6 |
f7 |
f8 |
Y1 |
100 |
194.8 |
hellip; |
15.8 |
38.1 |
6.73 |
Y2 |
101 |
229.5 |
hellip; |
15.2 |
40.5 |
7.83 |
Y3 |
99 |
270.1 |
hellip; |
14.4 |
35.4 |
6.70 |
Y4 |
101 |
249.0 |
hellip; |
12.8 |
42.8 |
7.54 |
hellip; |
hellip; |
hellip; |
hellip; |
hellip; |
hellip; |
hellip; |
Y51 |
102 |
245.4 |
hellip; |
13.4 |
41.0 |
7.49 |