代价敏感粗糙集在分类知识发现中的应用研究毕业论文
2022-04-13 19:55:18
论文总字数:27934字
摘 要
基于数据的分类技术已成为知识发现的一个重要研究内容,并在众多领域中得到了广泛的应用。在实际分类问题中,由于数据本身具有不确定性,又容易受到噪声的污染,更重要的是,不同的分类错误将导致不同的分类代价,仅关注分类精度而忽略误分类代价的非平衡性在实际应用问题中具有局限性。
本文将决策粗糙集与代价敏感学习相结合,研究了一种基于决策粗糙集的代价敏感分类方法。依据决策粗糙集理论,研究了一种以最小代价为目标的属性约简定义以及相应的启发式搜索算法,通过该算法可以找到一个局部最优约简。对待预测样本计算最优测试属性集,使得样本在最优测试属性集上计算的分类结果具有最小误分类代价和测试代价,依此给出样本的最小总代价分类结果。
关键词:分类知识发现 代价敏感 决策粗糙集 属性约简
On Application of cost sensitive rough set into classification knowledge discovery of classification
Abstract
Classification technology based on data has become an important research content of knowledge discovery, and it has been widely used in many fields. In classification problems, due to the data with uncertainty, it is easily disturbed by noise pollution, more important is, different misclassification will lead to different classification cost, only pay attention to the classification accuracy and ignore the error classification cost non balance in the practical application problems with limitations.
In this paper, the decision rough set and cost sensitive learning are combined, and a cost sensitive classification method based on decision rough set is studied. Based on the rough set theory, a new algorithm is proposed, which is defined as the minimum cost for attribute reduction and the corresponding heuristic search algorithm. Treat the prediction sample to calculate the optimal test attribute set, which make the sample in the optimal test attribute set to calculate the classification results with minimum misclassification cost, test cost and accordingly gives the sample of minimum total cost classification results.
Keywords: Classification Knowledge Discovery;Cost Sensitive Decision;Rough Set Attribute Reduction
目录
摘 要 I
Abstract II
第一章 绪论 1
1.1本课题的研究背景与意义 1
1.2代价敏感分类知识发现的国内外研究现状 1
1.3粗糙集的研究现状 2
1.4本文的研究内容概述和论文组织 3
第二章 决策粗糙集理论基础 5
2.1 Pawlak粗糙集理论 5
2.1.1 Pawlak粗糙集模型 5
2.1.2 Pawlak粗糙集属性约简 6
2.2决策粗糙集理论 7
2.2.1 决策粗糙集模型 7
2.2.2 决策粗糙集属性约简 9
第三章 代价敏感决策粗糙集的分类知识发现方法 11
3.1 代价敏感决策粗糙集模型 11
3.2基于代价敏感决策粗糙集的属性约简 13
3.3 基于代价敏感决策粗糙集的分类算法 14
3.4启发式最优测试属性集的搜索算法 15
3.5仿真实验及结果 16
3.6 变压器故障诊断应用实例 23
结论与展望 27
参考文献 28
致谢 30
附录 31
绪论
1.1本课题的研究背景与意义
自上世界九十年代以来,信息产业界越来越关注数据挖掘。数据挖掘作为数据库知识发现中的重要环节,通过算法搜索出海量数据中隐藏的信息。数据挖掘之所以能够引起关注,取决于数据的大量存在和广泛使用,与此同时,将数据转换为真正有价值的信息或知识便成为当务之急。数据挖掘一般与统计学息息相关,主要是通过机器学习、情报检索、专家测评(依托以往的经验法则)等众多方法进行处理。
数据挖掘分析方法包括:分类(Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)等。
分类即在数据中先选出完成分类的训练样本集,创建分类模型,之后对还未分类的数据做出相关分类。在实际情况中,因为数据本身的不确定性和模糊性,可能包括一些错误,这会导致错误的分类信息,并且增加了实现的难度。特别要注意,不一样的分类错误会产生不一样的分类代价。比如,医院把确实有病的病人诊断成健康,病人可能会因为被延迟治疗而造成后遗症甚至死亡等严重后果。病患和家属的代价十分惨痛,医院也需承担错误分类带来的责任,代价过大就成了医疗事故。同样,如果把原本健康的人诊断成有病,那么该“患者”可能因此而支付高昂医疗费用。我们把因为错误分类而产生的代价称为误分类代价。因此如何从含噪声的不确定性数据中建立具有代价敏感性的分类模型对于理论研究和实际应用都具有重大的意义。
1.2代价敏感分类知识发现的国内外研究现状
处理数据时,获取样本的条件属性和对样本进行了错误的分类,这都会付出一定的代价,代价敏感学习就是改进了传统的分类算法,并通过训练数据集的学习来处理分类问题的一种理论。在实际中,对数据的研究越来越重视其代价,而代价正是代价敏感学习的基础。
二十世纪六十年代,Hunt 等人提出,对于不同的分类问题,将代价分为测试代价(TestCost)和误分类代价(MisclassifiedCost)。测试代价,即测试数据花费的代价,通常来说,时间代价、成本代价、劳动代价等等都是测试代价。误分类代价,即将原本属于这个类的对象误分类到其他类而花费的代价。1984年,布莱曼等人探索发现了分类回归树,这也是代价敏感学习的开端。二十一世纪初,外国学者特尼对代价的类型做出总结,并把代价分成九类,包括误分类代价、测试代价、波动代价以及副作用产生的代价等等。在2002年,艾尔肯提出了了代价敏感机器学习理论的基础。随后,Chai等学者,分析了缺失数据的特性,提出制衡测试代价和误分类代价的方法,令有缺失值的数据也可以被代价敏感学习方法处理。
请支付后下载全文,论文总字数:27934字