基于弱监督学习的文本分类文献综述
2020-04-15 17:07:17
1 课题来源、目的、意义以及国内外研究现状
1.1 课题来源
本课题来源于国家自然科学基金项目“基于迁移学习的地理领域知识图谱构建技术(61702386)”。
1.2 研究目的及意义
1.2.1 研究目的
文本分类是指根据给定的类别,将文本集合中的文本按照一定的规则确定指定类别的过程。
而弱监督学习文本分类指的是根据用户的提供少量的种子信息,来进行文本的分类任务。
1.2.2 研究意义
随着现在信息技术和互联网的不断发展,信息文本的数量正呈爆炸式增长,人们如果想快速地从这些海量信息资源中查找出自己所感兴趣的内容,就需要抽取出其中的关键词,来代表文档的主要内容,方便人们查询。关键词自动抽取是利用计算机从文献中提取出反映主题信息的词语,是信息检索、文本分类、文本聚类以及自动文摘生成等技术的基础。
近年来,深度神经网络因其强大的表达能力以及对特征工程的要求较低,而在经典文本任务中越来越流行。尽管神经模型在文本关键词提取任务中日益流行,但训练数据的缺乏仍然是阻碍它们在许多实际场景中被采用的关键瓶颈。深度神经模型训练能够轻而易举的消耗百万级标记文档,收集这些训练数据需要该领域专家阅读数百万份文档,并依靠领域知识仔细对其进行关键词标注,而这通常过于昂贵而无法实现。
通常情况下,虽然用户无法标记许多用于训练神经模型文档,但他们可以为关键词提取任务提供少量种子信息。这样的种子信息可以是各种形式:每个类的一组代表性关键词,一些(少于十二个)标记文档,或者甚至仅是类的表面名称。这种问题被称为基于弱监督学习的文本关键词提取。基于弱监督学习的文本关键词提取,能够解决神经模型在许多实际场景中缺乏训练数据这一关键瓶颈。解决这一瓶颈,有利于推动关键词提取技术发展,从而推动信息检索、文本分类、文本聚类以及自动文摘生成等技术的发展。
1.3国内外的研究现状
美国的IBM公司的Luhn[3]提出了基于词频统计的文献自动标引方法,标志着关键词提取研究和运用的开始。Edmundson[4]开启了用计算机程序进行文献自动检索的实用化时代,设计并实现了最早的自动关键词抽取系统。从那时起,许多研究人员投入到文本分类的研究中。目前,国内外相继提出许多文本分类的方法,下面介绍一下最具代表性的几种方法。
1)基于统计的方法
基于统计的方法是利用文本特征的统计信息进行关键词抽取,如词频、TFIDF、词共现等。该类方法最早被提出,不需要像机器学习那样进行复杂的训练,可以对文本直接进行关键词的提取;统计法中的TFIDF方法的研究较早,是由Salton[5]在1988 年提出的,用于评估一个词对一个文档集或一个语料库中的其中一份文档的重要程度。TFIDF算法简单快速,且比较符合实际情况,但传统TFIDF算法也有缺陷。国外的研究者们提出的改进方法侧重于IDF量化指标的优化。Besils[6]提出的TF*IWF*IWF算法在一定程度上克服了TFIDF算法中IDF带来的问题。Bong[7]根据不同类别的文档数可能存在数量级的差距,提出利用CTD来改进TFIDF,以改善类别数据集偏斜所引起的误差。国内也有许多学者对TFIDF算法进行了研究,对特定领域的TFIDF算法改进,特别是应用于汉语处理,取得了显著的成果。刘露[8]增加了TFIDF方法的计算能力,提出了TFIPNDF,通过对“支持”、“反对”的情感判断,提高传统TFIDF的准确性.秦鹏达[9]进行深度学习训练时,提出了NEG-TFIDF方法,利用反例的特征权重来优化模型。
2)基于机器学习的方法