多标签数据特征选择的降维方法研究文献综述
2020-04-15 17:08:23
1.1课题研究的目的及意义
随着大数据近些年来兴起,许多研究对于数据的研究也越来越深。原来,我们对于一个实例仅仅只是与一个标签相关联,但是,随着我们对于数据挖掘需求的加深,在某些应用当中,一个实例可与多个标签相关联。例如,一个文档可以有多个主题,一段基因可以生成多个蛋白质,一张图片可以包含多个场景。事实上,多标签学习在生物信息学、多媒体内容注释、信息检索和网络挖掘等许多应用中经常遇到。
多标签数据特征选择的降维方法的目的是通过标签间关联性降低输出标签空间维度,优化模型,并建立一个能够预测来自给定标签集的位置实例所对应的标签子集的函数。其中,传统监督学习是多标签学习的退化,是多标签学习将每个实例对应的类标签数量限制为一。
多标签数据特征选择的降维方法的意义是找出标签间关联性,剔除掉标签之间关联性不强的特征,简化并优化模型,大大减少算法计算量与计算时间。
1.2国内外研究现状
多标签数据中由于标签数目由一变为了多个,当给定标签集中的数目越来越多时,输出空间成幂集爆炸增长,明显我们不愿意看到这样的情况。所以对于多标签学习中,研究标签之间的关联性显得尤为重要。
Z.-H.Zhou等[1]通过利用标签间关联性的阶数来直接将多标签学习方法粗略地分为三类:(1)第一阶:直接忽略标签间关联性,直接单独对每个标签建立互不相关的二元分类器,这种方式虽然粗暴但是实现简单;(2)第二阶:仅仅考虑标签间成对关联性,例如关联标签与不关联标签的排序;(3)第三阶:考虑标签间高阶关联性,比较复杂。
S.-J.Huang等[7]仅仅利用了标签的局部关联性,提出了一种基于局部关联性的多标签学习(ML-LOC)方法。当然,仅仅利用标签的局部关联性是远远不够的,Y.Zhu等[2]提出了新的多标签方法glocal来处理全局标签和局部标签。
在多标签学习当中,由于收集的数据并不完整。一个实例所对应的标签可能是会有缺失的情况。对于缺失标签,P.Zhao等[6]采用矩阵完备化的方法来尝试解决这个问题。
在建立模型后,我们需要进行实验来验证我们方法的优越性。此时,我们要有相应的评估标准来进行对比,在[1]中,它提出了两种评估标准,一种是基于实例的评估标准,而另一种则是基于标签的评估标准。