基于嵌入的特征选择的分类算法开题报告
2020-02-20 10:23:49
1. 研究目的与意义(文献综述)
在过去的三十年里,机器学习和数据挖掘任务中所涉及的数据的维度急剧增加。高纬度的数据对现有的学习方法提出了挑战,被称为维度之咒。大量特征的存在使学习模型趋于过拟合,学习功能退化。为了解决维度诅咒的问题,降维技术成为了机器学习领域的热门。特征选择是降维技术的主要方法,是从业人员最常用的降维技术之一。它根据一定的相关性评价标准,从相关特征集中挑选出一个重要子集, 提高学习性能,如更高的学习精度、更低的计算成本和更好的模型可解释性。特征选择已经成功应用于许多领域,如模式识别、文本分类、图像处理、生物信息学等。
根据训练集中样本是否标记,分类方法可以基于三种学习模式:有监督学习模式、半监督学习模式和无监督学习模式。根据与学习算法结合方式的不同,特征选择算法可以分为四类:过滤式(filter)、封装式(wrapper)、嵌入式(embedded)和混合式(hybrid)。基于过滤式的特征选择算法独立于任何分类器,它们使用特定的评价标准去评价特征,relief,fisher score,cfs和fcbf是过滤式模型最经典的算法。基于封装式的特征选择算法使用一个给定的分类器去选择一组具有最大分类能力的特性,代表算法有fssem、l1svm等。封装式的学习算法有很好的分类准确率,但计算成本更高,且容易造成学习算法过拟合。混合式模型弥补了过滤式和封装式之间的差距,典型的算法包括bbhfs、hga。嵌入式特征选择方法结合了学习算法和特征选择机制去评价学习过程中被考虑的特征,也就是说它同时实现了学习训练和特征选择,典型算法包括c4.5、blogreg,和sbmlr。
嵌入式模型同时解决特征选择与分类、回归或聚类问题,即将特征选择视为学习算法的子系统,具有封装式特征选择模型的精度,同时具有过滤式特征选择模式的效率,存在着较大的研究价值。
2. 研究的基本内容与方案
2.1研究的基本内容
特征选择是降维技术的主要方法,也是机器学习领域的热门之一。特征选择算法主要有三类:过滤式、封装式和嵌入式。嵌入式特征选择算法将特征选择与分类过程结合起来,与分类器模型结合最紧密,是前两类方法的折中。分类模型的构建受所选取的特征子集影响,在进行分类的同时就自动根据分类目标函数选择分类效果最佳的少量重要特征。本次毕设主要研究基于嵌入式特征选择的分类算法。
2.2 研究的目标
3. 研究计划与安排
1-3周:查阅文献,完成开题报告
4-6周:总体设计,完成论文综述
7-10周:设计算法,功能模块设计
4. 参考文献(12篇以上)
[1] l. du and y.-d. shen. unsupervised feature selection with adaptive structure learning. in kdd, pages 209–218, 2015.
[2] s. alelyani, j. tang, and h. liu. feature selection for clustering: a review. data clustering: algorithms and applications, 29, 2013.
[3] d. cai, c. zhang, and x. he. unsupervised feature selection for multi-cluster data. in sigkdd, pages333–342, 2010.