基于信息熵理论的局部离群点检测研究开题报告
2022-01-09 21:32:07
全文总字数:2303字
1. 研究目的与意义及国内外研究现状
研究意义:离群点检测是数据挖掘的重要研究方向之一,其任务是从数据集中找到与多数数据对象明显不同的少数数据对象,研究离群点异常行为有助于发现特别有价值的知识,还可以用于入侵检测中。除此之外,对于大量数据的处理操作,若使用离群点检测技术还可以最大化的利用机械作业,有效地减少人工分析数据工作量以及人工分析的经验成分。所以离群数据的挖掘算法的研究具有相当重要的现实意义
研究目的:通过对数据的聚类的分析应用将数据按照属性划分为不同的几类,在分类的基础上深入研究现有的离群点检测算法,在此基础上对现有的离群点检测算法提出改进并验证可行性。最终提出离群点检测算法的改进。
国内外研究现状
近年来,针对离群检测国内外的研究学者提出了大量算法。传统的离群点检测算法集中在如何通过单一的数学算法从大规模的数据中发现离群点,按照原理可以划分为基于统计的、基于深度的、基于距离的、基于密度的、基于聚类的和基于偏差的检测方法等。除了传统的离群点检测算法以外,现在还有利用人工神经网络技术检测离群点的方法;利用模糊粗糙集技术的离群点检测算法等。
2. 研究的基本内容
本课题主要研究数据的聚类算法并在聚类算法的基础上进行离群点检测算法研究和改进,在整个过程中主要完成以下工作:
- 深入了解聚类算法工作原理和过程、发展现状和应用前景。
- 学习研究局部离群点检测算法的原理和过程,分析结果,寻找加入信息熵的算法改进方法。
- 通过合适的数据集对改进的算法进行运行,通过MATLAB绘制不同算法检测结果对比图像,便于对比分析。
- 对所得的离群点检测数据图像各项比较,根据对局部离群点检测算法的理论性分析认识,分析得出结论并完成论文。
3. 实施方案、进度安排及预期效果
实行方案:
在网上或者图书馆查阅相关资料,深入了解课题内容。在熟悉matlab和离群点检测基本算法的基础上,对离群点检测算法进行学习论证,为更好地研究做好基础。处理完成后,根据查阅的相关资料,进行分析研究。
4. 参考文献
[1]张强,王春霞,赵健,武龙举,李静永.基于聚类和局部信息的离群点检测算法[j].吉林大学学报,2012(06):1214-1218.
[2]朱付保,徐显景,白庆春,朱颢东.基于数据集对象平均离群因子的离群点选择算法[j].微电子学与计算机,2016,33(1):131-135.
[3]邢婷,邢治国,王凤领.基于信息熵的fcm聚类算法[j]计算机工程与设计.2010,