多视角特征选择的嵌入降维方法研究文献综述
2020-04-15 17:08:19
1.1课题研究的目的及意义
机器学习领域中,特征选择是降维的一种主要方法。数据降维后,维度降低,更有利于计算和可视化,其更深层次的意义在于有效信息的提取综合及无用信息的摈弃。现实生活中,数据通常是高维的,其中存在大量噪声及不相关特征,这给传统的学习算法带来巨大挑战。特征选择是指使用计算机选择图像中属于特征性的信息的方法及过程。特征是数字图像的一部分,它是许多图像分析算法的起点。
多视角特征选择,是当前应用研究的热点问题。多视角数据,目前已广泛存在于生物科学、社交网络、图像识别、汽车工业和机器人工业等领域。随着数据感知技术的发展,获取同一个目标对象描述的方式越来越多,每种方式获取的特征,常称为一个视角。为了更高效地利用多视角数据蕴含的互补信息,机器学习领域发展出了相应的多视角学习方式。现有工作已表明,将多个视图的数据按特定的策略融合成单一数据,进而用于后续分类或回归等任务,具有更好的学习效果。
相比传统的单视角学习方法,多视角学习的目的是充分利用不同表征之间的多样性和一致性,采用连接的多重表示作为输入,来获得更好的选择效果,具有一定的意义和价值。在深度学习中,因为特征本身的维数较高,也有降维以及融合的需求。此外,降维过程中用到的特征选择的方法并非独立过程,需要利用范数约束及嵌入思想来实现,因此也可以应用到深度学习框架中。
综上所述,无论是在机器学习,还是模式识别的领域,多视角特征选择的研究越来越重要,如何有效地从大量的特征中选择最优的特征子集保留下来,存在着一定的研究价值。而本文中,针对特征选择的嵌入降维方法的相关研究,则是目前多视角学习中的较为前沿的一类问题,具有一定的研究意义和价值。
1.2国内外研究现状
目前已有的多视角学习算法主要有三种机制:基于协同聚类、基于多核学习和基于子空间学习。除了子集搜索式选择、过滤式选择、包裹式选择之外,以稀疏编码为代表的嵌入式选择和正则化方法,近年来得到了广泛的研究;结合压缩感知,此类方法缓解了大部分过拟合问题。然而随着范数约束形式的增强,仍有相当一部分内容值得讨论。
基于结构信息保持的特征选择方法,通过最大程度上保持原始数据的结构,包括全局结构和局部流形结构来实现特征降维。这些结构可以通过图约束模型来表示,如样本成对相似图、K最近邻图、局部判别模型、局部线性嵌入等等。在近年来的研究进展中,嵌入矩阵被广泛引入到各类特征选择方法中,这些方法通过重构各数据点与全局信息之间的关系,来保留原始的结构。
针对多视角高维数据,目前提出了许多降维方法。J.Tang等人利用系数正则的方式对多视角数据进行特征选择(MVFS);Du等人提出了自适应结构学习的无监督特征选择算法UFSASL,使用选定的信息特征来重新对结构进行评估;Frederico等人兼顾标记数据和未标记数据,利用数据标签和聚类之间的均一性原则,提出了两种半监督特征选择方法。