中文垃圾短文本的识别方法研究文献综述

2020-04-14 14:50:56

1．目的及意义

1.1 目的及意义

所谓短文本主要是指手机短信、微博、商品评论、论坛帖子等一类长度较短，字数有限的文本。在该类短文本中，往往存在着大量的违反信息交互平台使用规定的违法的垃圾类文本，例如垃圾短信、广告微博、虚假评论等。由于短文本长度较短，字数有限，编辑来源广泛且内容编辑存在诸多不规范。因此，对其进行二分类，识别其中的垃圾类短文本时将会面临三个问题: (1)数据噪声大; (2)训练数据集不平衡; (3) 如果直接采用基于词表的向量空间模型来表示短文本，将会导致特征向量过于稀疏且维度较高。

就手机短信而言，据360发布的《2016年度手机安全状况报告》显示，2016年360手机卫士为全国用户拦截各类垃圾短信约173.5亿条，其中，广告推广类垃圾短信最多，所占比例高达92.2%"1。而对于商品评论，随着近年来电子商务在我国的蓬勃发展，越来越多的人倾向于网上消费，购买商品或服务。同时，消费者还可以对所购买的商品或服务根据自身的消费体验发表相关评论，从而供其他有购买意愿的顾客作为参考。然而，在这些大量评论中存在的一些与商品无关的、不真实的或者涉及广告推广的等诸多垃圾类评论，不仅容易误导消费者的购买行为，损害消费者的利益，而且扰乱了网络环境的正常秩序，严重影响了网络市场的正常竞争。因此，对短文本进行分类研究，识别出其中的垃圾类信息，在当今信息化时代背景下具有重要意义。

因此，对短文本进行分类研究，识别出其中的垃圾类信息，在当今信息化时代背景下具有重要意义。该类短文本一般具有以下几个主要的特点:

1)长度较短，字数有限，携带信息量不足。
2)编辑通常不规范，例如使用错别字、谐音字、特殊字符等。

3)用词多口语化、网络化。
4)编辑内容主要来源于社会上各种行业背景的用户，噪声信息较大。

鉴于短文本的以上特点，如果直接采用传统的文本分类方法来对短文本进行分类，则会面临数据噪声大，特征向量稀疏、维度高及数据集不平衡等问题。本文从解决以上问题出发，同时结合短文本自身独有的特点，从预处理、特征提取及分类算法的选取三个方面出发，提出适用于短文本的处理方法，进行垃圾短文本的识别。

1.2 研究现状

在垃圾文本识别领域内，研究最充分、最成熟的部分是垃圾邮件过滤，针对其它类型的网络文本的研究内容目前还不是很多。这是因为邮件系统的发展远比其它UCC类型的应用要早，它在互联网发展的初期就开始被人们广泛使用。垃圾邮件起源于美国，首次关于垃圾邮件的记录是1985 年8月一封通过电子邮件发送的连锁信。到上世纪90年代中期，垃圾邮件已经十分泛滥,针对它的研究也逐渐多了起来。而其它网络文本类型，如即时通讯、博客、论坛、个人空间等，是在新千年来临之后伴随着Web2.0的兴起才逐渐发展起来的。像微博等互联网产品是在最近两年才逐渐流行起来，但这些产品一一旦被人们熟悉起来，即迅速占领了市场，网民使用率多在50%以上。在中国很多网民有可能从来未使用过电子邮件，但是即时通讯软件QQ却是必不可少的。而且，随着这些UCC类的网络应用的发展，产生的文本信息量也越来越多，已经远远超过电子邮件的信息量，在网络上形成的热点和吸引的关注度也越来越密集。也正是这些特点吸引了大量的垃圾广告信息以及虚假广告信息的发布者,这些信息的发布已经严重影响到用户的体验和相关产品的命运，垃圾文本识别的问题也渐渐地受到人们的关注。
垃圾文本识别研究的早期形式主要是垃圾邮件过滤，主要分为两种:基于规则的研究方法和基于统计的研究方法。其中前者包括RIPPER方法、决策树、Boosting 方法等;后者主要包括朴素贝叶斯、SVM ( 支持向量机)、神经网络等。
Cohen在1996年基于RIPPER算法，设计了一种基于规则的垃圾邮件过滤器，包括一个正例规则集和一个反例规则集，并从中选取使用频率高或者信息量比较大的单词。香港科技大学的Yanlci Diao 等人在2000年提出使用决策树方法处理垃圾邮件，他们利用邮件正文中具有较高互斥信息的单词，以及邮件头中手工提取的信息短语来组成特征项，建立决策树。该方法仅适合于训练集中邮件数目小待处理集合中非法邮件占比高的情况。一旦情况发生变化，表现出召回率和准确率都会大大降低。Carreras 在处理垃圾邮件过滤的时候引入了Boosting 方法，表现出来的效果很好间。Boosting 方法实质上是在已有的学习方法(如决策树)基础上进行投票，将弱规则逐渐组合成强规则的过程，属于错误驱动型的，缺点在于训练速度慢。
最早的基于统计的文本分类识别研究可以追溯到上世纪60年代，由Maron提出的概率索引(Probabilistic Indexing)模型，采用了贝叶斯公式进行文本分类素引，这是该领域的开创性研究工作四响。他将每篇文档分解成-一个索引词( Indexing Word)集合，用以代表该文档，然后统计每一个索引词在文档库中每一个文档中出现的概率，再计算代表某篇文档的索引词集合与每个类别的后验概率,其中后验概率最大的那个类别就是该箭文档的所属类型。其实，这就是后来被广泛应用于文本挖握的贝叶斯模型的雏形。Maron 还率先提出了特征独立性假设以及类别排他性假设，用以简化后验概率的计算，这正是后面要提到的朴素贝叶斯算法的独立性假设。
在1998年在国际人工智能协会(AAAI)组织的关于文本分类的一个国际研讨会上，Stanford大学的Sahami等人发表了一篇著名的论文“A Bayesian approach to fitering junke-mail".该论文将贝叶斯算法应用于垃圾邮件过滤，达到准确率97.6%，召回率94.3%的效果网.而且,这是第一次将贝叶斯算法应用于垃圾邮件过滤的公开发表的学术文章叫。在2003年,Paul Graham对贝叶斯算法进行了一些改进,利用朴素贝叶斯算法过滤垃圾邮件，极大地提高了过滤准确率，文中实验数据达到了99.75%.
朴素贝叶斯基于前文所述的特征独立性假设和类别排他性假设，实际上这两个条件并不严格成立,也有人针对这两个条件进行了改进。在2003年Gary Robinson在Linux Jourmal上发表了朴素贝叶斯方法的改进文章“A Satistical Approach to the Spam Problem",文中他取消了特征独立性假设，改为利用chi-square 分布检验来计算特征间联合概率的方法，效果很好，而且与之前的方法比起来具有更广泛的适应性。
从此以后，很多基于统计学习的垃圾文本识别器逐渐流行起来,因为它具有实现容易、效果好、且中间状态信息少等特点。基于统计学习的垃圾邮件过滤方法，有来自贝尔实验室的Drucker和Donghui Wu在1999年发表的论文中采用的SVM (支持向量机)方法呵，还有Xavier Carreras和Lluis Marquez在2001年发表的论文中采用的Boosting Trees方法"。在Drucker的论文中，将SVM与Ricchio/Ripper/boosting decision tree三种算法进行了对比研究，结果证明在二分类的问题上，SVM和boosting decision tree的分类效果最佳,但SVM的训练时间更短，效率更高。

{title}

2. 研究的基本内容与方案

{title}

2.1 基本内容

短文本有如下特点：（1）长度短，短则几个词，长也不过几十个词，信息单元少；（2）在开放域状态下，词语总量大，用词重复率不高；（3）信息更新快，新词出现频繁。这些因素导致当前主流的分类方法在短文本分类方面力显不足。垃圾短文本识别的实质就是对短文本进行二分类，将其分为正常短文本、垃圾短文本。目前关于短文本分类的研究主要集中在如何解决短文本长度较短、信息量不足、特征稀疏的问题上，本文将要进行的主要工作包括如下：

1）预处理。预处理工作主要包括：错别字纠正、繁体字转换、字母大小写转换、停用词去除等。因此，本文将根据短文本自身的特点，在尽量不丢失信息的情况下，对其进行预处理，在一定程度上去除数据集中存在的噪声。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码