基于信息熵加权的离群点检测研究开题报告
2021-12-14 21:56:04
1. 研究目的与意义及国内外研究现状
离群点的检测是数据挖掘技术重要研究方向之一,离群点检测技术可以在众多数据中发现与大多数据不一致的那些离群的数据,在现实生活中该技术被广泛的使用,如网络入侵检测、信用卡恶意透支等,这些离群点检测技术应用的领域都是深入广大人名群众的生活,与普通大众息息相关的。
除此之外,对于大量数据的处理操作,若使用离群点检测技术还可以最大化的利用机械作业,有效地减少人工分析数据工作量以及人工分析的经验成分。
综上所述,离群数据的挖掘算法的研究具有相当重要的现实意义。
2. 研究的基本内容
离群数据挖掘的实现算法目前有很多种,包括本次毕设用来对比实验的slom算法、ldof算法、fcm算法、还有我的导师所提出来的在fcm算法的基础上进行改进的wsrfcm算法等等,可以实现利群数据挖掘的算法太多太多,但是每个算法都各有他们自身的优势和劣势,现在所需要做的就是在已知算法的基础上提出改进使得算法对于离群数据挖掘的准确率可以进一步提高。
1)随机生成20个数据,分别用slom、eslom、ldof、eldof这四种算法进行实验,初步验证信息熵加权理论的可行性、合理性、有效性。
2)由于现实生活中的数据都有多个类,所以进一步将信息熵加权理论运用于两个簇的数据进行实验,依旧使用slom、eslom、ldof、eldof这四种算法。
3. 实施方案、进度安排及预期效果
实施方案:
1.查阅相关资料,深入了解信息熵加权算法和离群检测。
2.查阅相关资料,了解研究步骤和设计算法。
4. 参考文献
[1]王宏鼎, 童云海, 谭少华,等. 异常点挖掘研究进展[j]. 智能系统学报, 2006, 1(1):67-73.
[2]史东辉, 张春阳, 蔡庆生. 离群数据的挖掘方法研究[j]. 小型微型计算机系统, 2001, 22(10):1234-1236.
[3] 于绍越, 商琳. 基于信息熵的相对离群点的检测方法:enbrod[j]. 南京大学学报:自然科学版, 2008, 44(2):212-218.