非结构化博客文本的自动分类外文翻译资料
2022-12-02 19:32:27
英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料
非结构化博客文本的自动分类
摘要
博客条目的自动分类通常被视为半监督机器学习任务,其中基于从其文本内容中提取的特征,博客条目被自动分配到一组预定义类中的一个。本文尝试通过以下预处理步骤(如标记化,停止词消除和词干)来自动分类非结构化博客条目;特征集提取的统计技术和使用语义资源的特征集增强,然后使用两个替代的机器学习模型(朴素的贝叶斯模型和人工神经网络模型)建模。实证评估表明,这种多步骤分类方法在非结构化博客文本数据集中具有良好的整体分类精度,具有机器学习模型替代方案。然而,当一个较小的特征集可用时,朴素的贝叶斯分类模型明显地超出了基于ANN的分类模型,这通常是博客主题是最近的,并且可用的训练数据集的数量受到限制。
关键字:自动博客文本分类; 特征提取; 机器学习模型;半监督学习
1.导论
博客条目的自动分类通常被视为半监督机器学习任务,其中基于从其文本内容中提取的特征,博客条目被自动分配到一组预定义类中的一个。通常,这个任务涉及自然语言处理中的几个子任务,如标记化,停止词删除,词干纠正和拼写错误校正,然后是特征集构建,使用适当的机器学习技术进行建模,最后使用训练模型进行分类。
博客是在互联网上进行沟通,信息共享和交流的流行方式。有博客专门用于体育,政治,科技,教育,电影,金融等。流行博客每年有数百万游客,因此也是挖掘消费者偏好和有针对性的广告的重要平台。博客上发布的大部分内容都是文字和非结构化的。分类博客文本是一项具有挑战性的任务,因为博客文章和读者对它们的评论通常很短, 经常包含语法错误,并使用与字典词不匹配的领域特定缩写和俚语术语。他们也被不适当地标记,并使用自动化工具进行解析更加困难。互联网用户的博客文章以三种方式组织[1] -1)预分类; 2)半分类;或3)未分类。接下来简要说明这三个类别。
1)预分类 - 预先分类的博客具有分配给每个子类的单独的网页,使得发布的内容被自动分类。例如,发布计算机技术更新的博客可以先前为“硬件”,“软件”,“外包”,“作业”等分配页面。
2)半分类 - 半分类博客是那些具有预先分类为流行类别的网页,其余的帖子显示为混合袋。例如,一个体育博客可能会包含通常被评论的流行运动的单独的网页,而不太受欢迎的运动的帖子看起来是混乱的,通常简称为“其他”类别。未分类的 - 未分类的博客不包含精细分类,并允许所有博客帖子以特别方式显示。例如,业余的电影博客可以在一页上包含电影,音乐,演员,观众的意见和对其他博主等的回复。
大多数博客属于半分类或未分类的类别。因此,应用自动文本分类技术对这些博客的长期内容管理产生了兴趣。机器学习技术,如朴素贝叶斯[1-3],人工神经网络[4],支持向量机[5,6]以及组合各种机器学习方法的技术[7,8]已被研究人员用于自动文本分类。除了内容管理,博客文本数据的分类和总结,还有几个重要的应用,如产品审查挖掘[9],政治情绪挖掘[10],矿业电影评论[11]以及在线广告战略展示的内容分析。本文的其余部分安排如下。 第2节描述了文本分类中的一些主要问题以及解决这些问题的文献采用的方法。 第3节给出了我们非结构化博客文本分类器的设计,并详细介绍了预处理阶段,特征提取和增强阶段,分类器建模阶段使用两种机器学习技术和评估阶段所涉及的各个阶段。 第4节讨论了实施分类策略和基于实验的性能分析。 最后,第5节给出了未来工作的结论和指导。
2.相关工作
本节介绍自动文本分类中的一些主要问题,并简要指出处理这些问题的相关工作。 讨论的主要问题是:预处理原始文本进行维度降解,提取用于文本分类中由同义词和多义词引起的分类和处理困难的单词特征集.
2.1. 原始文本的预处理降维
在从中提取要素之前,需要对非结构化文本进行预处理。在文本处理中,特征通常是文本本身的单词。由于自然语言具有较大的词汇量,因此需要执行预处理步骤以减少涉及的词汇匹配量。通常在文本上进行维度降低的预处理涉及停止词删除[1-3]和词干[12]。
停止词是在语言词汇中频繁出现的功能词,并不表示任何特定类别的文档,因此在分类中无效。 “the”“ is”“ in”“ or”“ it”“ for”等字是英文的停止词。删除停止词可以减少分类算法要处理的文本的大小。
停止将单词减少到其根或基本形式,从而减少要处理的单词特征的数量。干预是基于观察到具有共同词干的词通常具有相似的含义[12],因此它们可以被视为一个常见的标记。例如,像“直接”,“指示”,“方向”,“方向”,“指示”,“导演”等字都可以通过剥离后缀如“分别,-ion,-ions,-s和-or。执行词干显着减少要处理的数据的大小。
此外,非结构化文本,特别是博客文章通常包含拼写错误,不正确的标点符号,缩写词,非文本的特殊字符等。可以使用文档处理工具查找和更正拼写错误。随着时间的推移产生的域特定语义资源[1]可用于识别常见的缩写,并实现细粒度分类。
2.2. 识别文本分类的特征
最重要的词或具有最高歧视力的词需要被识别为分类的特征。这通常使用统计和半语义技术来执行。众所周知的特征提取技术包括TF-IDF [13-15],LSI [15-17]和多字[15,18]。
TF-IDF是术语频率逆文档频率的缩写[13,14]。这是一种基于概率的统计量度来确定单词特征在文本文档语料库中的重要性。它是基于启发式的,如果术语在文档中频繁出现,但不会出现在语料库的许多不同文档中,则该术语是一个很好的鉴别器。 LSI是潜在语义索引的缩写[15,16]。它使用术语文件矩阵操作和奇异值分解来导出特征项和文本文档之间的关联。它也试图在某种程度上解决同义词和多义词问题[16]。这种方法在计算上是昂贵的,更适合于面向查询的搜索。
多个单词[15,18]是一个有序的单词序列,它们比单独采用组中的单词更语义地指示域。
2.3. 处理“同义词”和“多义词”
“同义词”和“多义词”是文本分类中常见的两个问题。“同义词”是不同词语具有相同含义的能力。例如,“富”和“富”是同义词。如果使用特征词的同义词而不是完全相同的特征项,则在基于关键词的检索或错误分类中可以省略相关文档。 “Polysemy”是同一个词具有不同感官的能力。例如,“鼠标”一词可能意味着“啮齿动物家族的生物”或“计算机的输入设备”。特征术语的多义词可能导致将搜索或错误分类期间将不相关的文档检索到文本文档到非相关类别。在使用单词功能执行文本分类的任务中,“同义词”的问题可以通过使用同义词库或WordNet等在线词汇数据库来解决[19,20]。 “Polysemy”更难处理,然而词义消歧技术[21]在处理这个问题上已经部分成功了。
如上一节所述,标记化,停止词消除,词干和拼写错误校正。在博客文本中出现的单词被视为令牌。在标记化过程中消除了空白,特殊字符和标点符号。令牌与预编译的停止词列表中的单词匹配,并消除以减少开销。我们还使用波特的后缀剥离算法进行了干扰[12]。经验证明,波特的词干算法将英语词汇的大小减少了大约三分之一[12]。使用标准字处理程序纠正拼写错误。
3.使用机器学习技术自动分类博客条目
本节讨论我们为非结构化博客文章分类实施的分类策略。 如图1所示。用于实验的数据集包括表1所示的运动,计算机技术和环境类型的各种博客条目。不管使用的机器学习技术如何,博客文本的自动分类都有四个主要 阶段1)预处理阶段; 2)特征提取和富集阶段; 3)分类器建模与训练阶段; 和4)评估阶段。 接下来简要介绍这些阶段。
3.1 预处理阶段
在博客文本上执行的预处理步骤是前面部分所述的令牌化,停止词消除,词干和拼写错误校正。 在博客文本中出现的单词被视为令牌。 在标记化过程中消除了空白,特殊字符和标点符号。 令牌与预编译的停止词列表中的单词匹配,并消除以减少开销。 我们还使用波特的后缀剥离算法进行了干扰[12]。 经验证明,波特的词干算法将英语词汇的大小减少了大约三分之一[12]。 使用标准字处理程序纠正拼写错误。
3.2特征提取和特征丰富阶段
在文本分类中,功能是从文本中提取出来的,在我们的例子中是博客文章。即使在前一阶段执行停止词消除和词干之后,来自数百个用户的博客帖子的词汇量仍然很大。所有这些词在分类中都没有用。为了提取重要的词特征,我们使用了众所周知的统计量tf-idf [13-15],它是“术语频率 - 逆文档频率”的缩写。在我们这种情况下,一个文档意味着一个单独的博客文章。我们根据他们的tf-idf值对特征进行排序,并提取了用于非结构化博客文本分类的歧视者的最高排名的30%的单词。我们还提取了经常出现的多字[15,18],用于分类。如上一节所解释的,多个单词是形成语义意义的单词组。例如,指向板球的体育博客文章可能包含多个单词,如“击球平均”或“后面”,而引用网球的博文可能包含多个单词,如“强制错误”或“匹配点”。我们以两种方式丰富了功能集。首先,我们使用在线词汇资源Word Net 2.1(可从lt;http:// wordnet.princeton.edugt;获得)添加单个字词特征的同义词。其次,我们从可用的术语的在线外部术语表中添加了单词和首字母缩略词。例如,表2显示了运动“板球”的已编译首字母缩略词的部分列表。因此,虽然使用统计学方法以完全自动的方式进行特征提取,但特征丰富步骤需要人力监督,这使得我们的方法半监督。然而,重要的是要注意,功能丰富步骤是可选的,并且仍然可以使用整体多步骤策略执行分类,而不需要从语义资源或外部词汇表中添加附加功能。特征集提取和增强之后是下一阶段描述的分类器建模和训练阶段。
3.3 分类器建模和训练阶段
我们将文本分类视为监督机器学习的应用。 测试集中的博客文章使用多变量伯努利模型[2,3]表示为二进制特征向量。 该模型仅仅表示每个特征项的存在/不存在。 例如,如果在特征提取阶段中提取了n个特征,则博客条目“e”将在内部表示为有序序列,e =(i1,i2,i3,...,in),其中每个 “ik”是表示特征项存在的“1”的二进制变量,不存在的是“0”。 特征项是在特征提取阶段提取的具有高tf-idf值的单词和多个单词。 我们使用两种着名的机器学习模型对非结构化博客文本数据进行分类 - 1)朴素贝叶斯模型; 和2)人工神经网络模型。 下面简要介绍这些模型。
3.3.1朴素贝叶斯模型
朴素的贝叶斯模型是一种概率分类方法。它是基于属性之间条件独立性的简化假设[22]。给定包含属性值和相应目标值(类)的训练集,初始贝叶斯分类器基于先前观察到的在这种情况下发生的特征项的概率来预测不可见(新)实例的类。让C表示博客文章可能属于的预定义类的集合。 B表示预处理博客文章的训练集,而Bc是包含某些类cЄC的博客帖子的B的预先标记的子集。令F是在特征提取和丰富阶段期间生成的最终特征集。通过对博客训练集进行一次测试,计算每个类的特征集F中每个特征的概率。首先,朴素的贝叶斯分类器[1,22]计算每个类cЄC的先验概率,如等式(1)所示。为每个类cЄC做
(1)
为了对新的博客条目e进行分类,如属于等式(2)所示,预测属于每个类的概率。 在等式(2)中,iPfc项表示在类别c的博客条目中发生第i个特征项的统计概率。
(2)
然后将博客帖子分配给具有最高概率的类,如等式(3)所示。
(3)
使用朴实的贝叶斯分类模型,我们经验性地获得超过87%的良好的平均分类精度。
3.3.2人工神经网络模型
我们使用Matlab版本7.8(R2009a)开发了基于ANN的博客文本分类模型。我们生成了使用“反向传播”算法训练的3层前馈神经网络。输入层有
版权所有copy;2013 SciRes JILSA
非结构化博客文本的自动分类112
与神经元数量相同的特征数量。输入是一个二进制向量,指示训练文档中不存在/存在特征项。隐层神经元使用S形激活功能。输出层中神经元的数量取决于输出类的数量。例如,如果输出层具有n个神经元,则它可以表示高达2n个输出类(00,01,10和11)。因此,如果一个博客被分为4个子类别(例如,体育博客帖子被分类为:板球,曲棍球,网球或其他),那么2个输出神经元就足够了。使用具有足够大的特征集的基本ANN分类模型,我们凭借经验获得了超过85%的良好的平均分类精度。由于朴实的贝叶斯和基于ANN的模型都使用相同的特征集,因此比较它们的分类精度是有趣的。该比较已经在下一阶段进行了。
3.4 评估阶段
我们在3种类型的博客中执行了每种类型的3个子类别的预处理和功能集生成。这些类别已列在表1中。我们根据我们的博客数据集,在精度,召回率和f度量方面评估了天真贝叶斯和ANN模型的分类准确性。我们使用70%的数据集来训练一个模型,30%用于测试,因为这已经知道给出良好的分类准确性[1]。我们用不同大小的功能集重复了我们的实验。经验评估在第4节中解释,所得结果总结在表3中。
4.实证评估和结果
我们根据博客数据集实现了我们的分类器
第3节概述的策略。培训语料库包括3000个博客帖子和评论(来自运动,计算机技术和环境的三个类别中的每个中的大约1000个帖子),这些帖子是使用网络爬虫从Internet上的几个热门博客中收集的。类别和子类别如表1所
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[25552],资料为PDF文档或Word文档,PDF文档可免费转换为Word