登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 文献综述 > 理工学类 > 信息与计算科学 > 正文

基于嵌入的特征选择的分类算法文献综述

 2020-04-15 17:08:09  

1.目的及意义

在过去的三十年里,机器学习和数据挖掘任务中所涉及的数据的维度急剧增加。高纬度的数据对现有的学习方法提出了挑战,被称为维度之咒。大量特征的存在使学习模型趋于过拟合,学习功能退化。为了解决维度诅咒的问题,降维技术成为了机器学习领域的热门。特征选择是降维技术的主要方法,是从业人员最常用的降维技术之一。它根据一定的相关性评价标准,从相关特征集中挑选出一个重要子集, 提高学习性能,如更高的学习精度、更低的计算成本和更好的模型可解释性。特征选择已经成功应用于许多领域,如模式识别、文本分类、图像处理、生物信息学等。

根据训练集中样本是否标记,分类方法可以基于三种学习模式:有监督学习模式、半监督学习模式和无监督学习模式。根据与学习算法结合方式的不同,特征选择算法可以分为四类:过滤式(filter)、封装式(wrapper)、嵌入式(embedded)和混合式(hybrid)。基于过滤式的特征选择算法独立于任何分类器,它们使用特定的评价标准去评价特征,Relief,Fisher score,CFS和FCBF是过滤式模型最经典的算法。基于封装式的特征选择算法使用一个给定的分类器去选择一组具有最大分类能力的特性,代表算法有FSSEM、L1SVM等。封装式的学习算法有很好的分类准确率,但计算成本更高,且容易造成学习算法过拟合。混合式模型弥补了过滤式和封装式之间的差距,典型的算法包括BBHFS、HGA。嵌入式特征选择方法结合了学习算法和特征选择机制去评价学习过程中被考虑的特征,也就是说它同时实现了学习训练和特征选择,典型算法包括C4.5、BlogReg,和SBMLR。

嵌入式模型同时解决特征选择与分类、回归或聚类问题,即将特征选择视为学习算法的子系统,具有封装式特征选择模型的精度,同时具有过滤式特征选择模式的效率,存在着较大的研究价值。

Tibshirani于1996年提出了Lasso惩罚法,或称为稀疏回归法。这种算法在惩罚项的回归系数压缩方式上,采用的是L1正则化,即一次绝对值压缩。随着Lasso惩罚法的提出,惩罚函数法逐渐发展,如Fan和Li在2001年提出的SCAD、zhang在2007年提出的MCP等。除Lasso外,另一个具有代表性的惩罚函数法是Zou等提出的将L1正则化和L2正则化相结合的Elastic Net双惩罚办法。它能够在产生稀疏解的同时克服自变量间的高度相关性,提高模型的稳定性。2006年,Yuan和Lin将Lasso扩展到分组结构下,首先提出了关于组变量选择的惩罚函数办法Group Lasso。受到GLasso算法的启发,CAP、Group MCP、Group SCAD等方法相继出现。针对双层变量选择的需要,Huang等在2009年将Bridge惩罚法用到组系数的惩罚上,同时在组内进行Lasso惩罚,提出了双层变量的选择惩罚办法Group Bridge Lasso。同年,Breheny和Huang改进了上述方法的约束条件,提出了gMCP。2010年,Zhou和Zhu采用分层的方式提出了Hierarchical Lasso模型。

{title}

2. 研究的基本内容与方案

{title}

2.1研究的基本内容

特征选择是降维技术的主要方法,也是机器学习领域的热门之一。特征选择算法主要有三类:过滤式、封装式和嵌入式。嵌入式特征选择算法将特征选择与分类过程结合起来,与分类器模型结合最紧密,是前两类方法的折中。分类模型的构建受所选取的特征子集影响,在进行分类的同时就自动根据分类目标函数选择分类效果最佳的少量重要特征。本次毕设主要研究基于嵌入式特征选择的分类算法。

2.2 研究的目标

在理解学习各种典型算法,并且能够实施其中一种算法的基础上,对此算法进行一些改进,提高分类效率,减小冗余度。

2.3 拟采用的技术方案及措施

  1. 学习特征选择的各种算法和算法特点,对各种算法的结构和框架进行阐述,了解过滤式、封装式、嵌入式的主要典型算法。

    剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图