基于变化熵的超高维数据特征筛选开题报告
2021-12-29 21:49:16
全文总字数:3572字
1. 研究目的与意义及国内外研究现状
当前社会环境下,由于网络技术等的发展和计算机存储功能增强,超高维数据变得越来越频繁,例如金融市场的数据,疾病诊断中的基因数据,邮件中的文本数据转化而成的超高维分类变量。由于高维数据存在的普遍性,使得对高维数据挖掘的研究有着非常重要的意义。
在实际涉及到高维数据处理的问题中,往往影响协变量的维数p是随着样本成指数增长的,一般情况下,要对p维协变量进行降维,选择出对因变量产生较大影响的重要变量,以此达到超高维数据降维的目的。本文主要基于变化熵j值提出一种变量降维方法,并进行数据模拟和实例分析。
数据降维,一方面可以解决“维数灾难”,缓解“信息丰富、知识贫乏”现状,降低复杂度,可以使用一些其他的统计方法如主成分分析等进行数据处理;另一方面可以更好地认识和理解数据,为进一步利用数据,挖掘数据中隐含的更深层次的信息提供便利,在现实生活中有重要的意义。
2. 研究的基本内容
本课题基于变化熵-j值提出一种新的超高维数据降维方法,记为j-sis。首先,在文中证明了该数据筛选方法的正确性,从理论上该方法是可行的。
其次,用r软件进行蒙特卡洛模拟,产生500个具有p维协变量的样本,其中d个与因变量相关的,对样本进行筛选,选择出重要变量与实际情况比较,分析该方法的效果。
然后,利用模拟出的样本,采用其他的特征筛选方法(如ig-sis)进行特征筛选,将结果与本文提出的方法筛选出的结果进行比较。
3. 实施方案、进度安排及预期效果
实行方案:
1. 阅读大量的文献成果,总结研究进展情况,找出以前研究的不足和避免研究内容的重复性。
2. 对国内与国外相关文献进行分析,对研究内容方法原理、思想内容等各方面进行比较,总结出不同的特点,提出本文的研究主要内容和研究方法。
4. 参考文献
[1]http://baike.baidu.com/link?url=n6b_whyg4qhmrgfxz7xbgctthgrvhyeeehghmdt-vwzwbdl4qyzldehb8d1bk91rwgfx4avhyisu5t5oueyas6i4q1imcd1gwndoxagvcorol6ekxdpkczso6khdq6pjfsw44h8h8thd2rjbib2fvq,高维数据挖掘,百度百科,2016.12.26
[2]lyu nifangfang,entroy-based model-free feature screening for ultrahigh-dimensional multiclass classification,http://dx.doi.org/10.1080/10485252.2016.1167206,2016.12.27
[3]huang,d.,li,r.,and wang,h(2014),’feature screening for dimensional categorical data with applications’,journal of business and economics statistics,32,237-244.