基于核主成分法的异常值检测的应用研究开题报告
2020-04-13 17:03:59
1. 研究目的与意义(文献综述)
1.1设计(论文)的意义
在进行数据分析的时候,我们常遇到某些数据偏离预期值或者大量数据值结果的情况,若我们简单的把这些数据和正常数据放在一起统计,势必会影响实验的结果的准确性,假如我们把这些数据简单的剔除掉,又会忽略十分重要的实验信息。因此如何判断异常值在这里显得至关重要,并且剔除掉异常值也是我们必要的工作。可以看出,判断并剔除异常值在数据处理中十分重要,目前常用的一些方法(如主成分分析法)还不是十分完善,因此,有待于我们进一步研究。
2. 研究的基本内容与方案
2.1研究的基本内容和目标
基本内容:在本次的研究中,我们根据不同的方法,先是探究了在异常值检测和应用方面主成分分析和核主成分分析在算法上的不同,以及由这些不同所引发的判别和聚类以及异常值检测的差异。接着我们致力于把我们的实验结果应用在我们的具体项目和实验中。具体表现为我们使用这些算法进行了主动形状模型构建和预测,以及由此引发的进行异常值检测的特殊方法—核主成分分析 的实际意义探究。同时,我们关注了国内外这一块研究的进程,深度的认识了前沿的技术研究,并研究了其基本思路和可能涉及到的算法,并致力于将其实现。
目标:比较不同的检测和消除异常值算法的优劣,并找出不同方法进行实验的分别适用情况,并通过实验检验我们的结论,修正判断的精准度。
3. 研究计划与安排
1—3周:阅读异常值检验的相关书籍和各种检验异常值的方法,查阅各种方法在实际领域的应用。完成一篇英文文献的翻译工作。
4—5周:完成毕业论文的开题报告;收集实验数据,拟打算收集2016中国统计局发布的某些地区的发展水平因素数据。由于要选择的数据应当能够比较出主成分分析和核主成分分析的优劣,数据拟选择地区的多项发展水平,以便构成较大的空间维度,从而更好地看出判别优劣。
6—9周:学习统计分析软件,主要为r软件、spss软件的学习,包括异常值、缺失值检测,对数据进行分析建模,并得到初步的结果。
4. 参考文献(12篇以上)
【1】bishop, christopher m. (ed.). pattern recognition and machine learning. springer, cambridge, u.k.,2006.cootes, timothy f, taylor, christopher j, cooper,david h, and graham, jim. active shape models| their training and application. computer vision and image understanding, 61(1):38{59, 1995.
【2】demers, david and y, garrison cottrell. non-linear dimensionality reduction. in advances in neural information processing systems 5, pp. 580{587. morgan kaufmann, 1993.georghiades, a.s., belhumeur, p.n., and kriegman,d.j. from few to many: illumination cone models for face recognition under variable lighting and pose. ieee transactions on pattern analysis and machine intelligence, 23(6):643{660, 2001.
【3】g¨okhan h. bak#305;r, weston, jason, and sch¨olkopf, bernhard. learning to find pre-images. in advances in neural information processing systems, pp. 449{456. mit press, 2004.