一个基于有效TF/IDF文本到文本的语义相似性测度的文本分类外文翻译资料
2022-12-02 19:30:28
英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
一个基于有效TF/IDF文本到文本的语义相似性测度的文本分类
摘要:近年来,使用语义进行相关的信息检索任务已经成为研究的一个广阔领域。在索引步骤、定义步骤,分类预测步骤中考虑监督文本评定类别,是这项工作的主要任务,语义可以在不同的步骤文本处理中有所涉及。至于类预测步骤,新的文本到文本的语义相似性措施可以取代传统上使用的一些分类方法进行决策经典的相似性措施。在本文中,我们提出了一种新的措施,以评估基于TF / IDF与聚合概念之间的语义相似占比较文本文档线对到线对的新功能,即文本之间的语义相似度。实验结果表明,我们的度量优于且显著改进了其他语义相似度经典措施。
关键词:分类,语义,文本到文本语义相似度。
- 简介
监督文本分类是目前一个具有挑战性的研究课题,尤其是在诸如信息检索,推荐,个性化,用户配置文件等方面。通常,监督文本分类方法使用文本文档来表示语法和统计模型。这适用于最流行的文本分类方法,如:朴素贝叶斯分类器(NB),支持向量机(SVM),Rocchio和K最近邻(KNN)。这些表示模型忽略藏在原文中可以帮助文本分类的所有语义。
然而,有可能使用语义资源要考虑到在文本表示中的意思来提高分级效率。因此,得到的文本表示模型可以兼顾同义词之间关系的话,也可以解决一些歧义。许多研究报告显示,使用语义进行文本分类提高了在特定领域的有效性,特别是通过部署特定领域的语义资源[1]。
这有用于监督文本分类的过程中涉及到的几种语义可能性。在这项工作中,我们致力于分类预测步骤中使用的语义与本到文本的语义相似措施。因此,我们提出了一种新的文本到文本的语义相似度量(TF/ IDF为主),被本文中称为SemTFIDF,我们提出了一个实验,在文本分类的情况下对其进行评估。此外,此外,我们与文献(IDF型)提出的另一个文本到文本的语义相似度量(文中称为semIDF)进行了比较,同时还与部署在向量空间模型中的著名古典相似度余弦方法进行比较。这些实验物医学领域中进行,且使用Ohsumed语料库和特定领域的知识基础相统一Med语言系统(UMLSreg;)和Rocchio与余弦作为基准[2]。
第二部分回顾技术方法在部署化分类或与之相关的信息检索和数据挖掘等任务中的语义状态。第三部分关于在分类预测中使用语义,并提出我们基于TF / IDF的新措施,适用于监督文本分类(SemTFIDF)。第四部分提出了我们用来评估我们新措施的实验装置。第五部分分析与余弦古典相似性度量和这两个文本到文本相似性度量(SemIDF和SemTFIDF)中获得的实验结果。最后,我们得出结论,并提出我们的观点和对未来期待。
- 涉及的监督文本的语义分类
通常情况下,大多数的监督文本分类技术是基于测试和分类程序的统计与概率假说。作为文字表示或索引,一个文件的重要性正在利用其出现在文档中的频率进行评估,这就是术语。到目前为止,术语的预期含义和它们之间的关系是不被处理或在文本分类中使用的。换句话说,语义和相关性背后出现的词是缺少经典的文本分类技术的。然而,近几年在索引,学习和预测中已经出现了寻求引入语义的不同方法。
(1)涉及索引语义。语义可以在索引的语义文本表示中使用。事实上,基于矢量(二进制或TF/ IDF)表示,被这些经典的监督分类方法所使用。可以定义背景知识基础,丰富的文档表示模型语义集成或“概念化”[3]。涉及索引语义中的特征除了本领域AP- proaches的状态使用,也可以通过主题建模隐语义[4]或从结构化资源和作用于文本表示新的功能来明确的语义学[5]。其他方法使用语义内核中的任一类型,来支持一些监督分类技术[6]。
(2)涉及定义语义。在这些方法中,用概念替换文本表示中的单词。此外,该层次结构和增加的一些概念之间的关系被考虑在定义步骤中从而影响了学习模式,所以分类模型可以是整个本体或它的层次结构的一部分(多个)。两个[7]使用语义资源的层次结构作品,会包含文本表示的相关概念。为了传播算法作者以识别的概念通过父母的权重传播他们的超级概念。此外,在文献中采用了类似的概念,以丰富的文字表达和被提出的方法来丰富载体。概念之间的异同正在使用语义资源中概念之间的关系来进行评估。无论泛化[8]和丰富载体[9]都含蓄涉及了语义分类模型。
(3)涉及分类预测语义。据文献报道,大多数研究侧重于丰富文本表示与语义和使用传统技术进行预测[10]。只有极少数的作品试图在分类预测语义中通过[11]提出类似于语义乔木或概念林新文本到文本的语义相似度措施。两项工程涉及明确本体的文本表示和定义作为分类模型的层次结构。作为评估两个文档之间的相似性,作者选择使用相对简单的公式与经典余弦措施的启发,使雅虎网站在根据类别划分的文件报道有了显著的改善。
评估文本到文本相似性的新语义方法似乎使用概念之间的语义相似性对与对是可行的。事实上,这种方法涉及到文件比较和预测类,除了词汇类似的语义相似的字词语义,以及通过发现文本之间的相似性考虑。估语义资源的概念之间的语义相似,吸引了众多研究人员的关注,导致提出了无数语义相似的措施[12]。
- 文本到文本的语义相似度量
在本节中,我们感兴趣的是文本分类过程中涉及的语义,特别是通过文本到文本的语义相似措施的预测步骤。实际上,一些分类器在向量空间使用像Rocchio这种的措施在类预测为它们选择要处理文件的最相似类标准。我们提出了一个新的测量用于评估在两大类概念之间(BOCA)代表两个文本文件(或文档中,并在一个Rocchio分类器的情况下的质心)的语义相似的新举措。首先,我们介绍一些关于文本到文本的语义相似措施的相关工作。然后,我们提出一个基于TF/ IDF加权方案的新聚集功能的新文本到文本的语义相似性度量。
3.1Related工程语义文本到文本相似度
作者提出一个聚集函数[13],在两组概念之间通过对这些群体之间概念的所有组合相似性的平均值评估的语义相似。Azuaje,王提出了一个类似的聚合函数,考虑到G1的每一个概念和G2所有概念之间最大的语义相似,反之亦然。在文献中提出了一种传播算法属性权重以文本再介绍他们参与的消费者。此外,作者提出基于这些权重以及成对概念语义相似度的新文本到文本相似性度量。这个新的相似性度量是替换向量空间模型像余弦经典文本到文本相似度的预测标准。作者介绍了更好使用的语义相似聚类。
作者制定了不同的聚合函数(我们后来通过参考SemIDF)用于比较使用语义相似性和逆文档频率的短文本或短语。相比于传统的余弦相似性度量[15],这个功能显著改善文了文本到文本相似度上的Microsoft意译语料库[16]。证明精度高,当应用于自动简短的分级回答。这个方法的主要缺点是忽略了句字之间的所有依赖关系。
在文本分类的背景下,我们本节测试的大部分相似性措施使用在第4节介绍的工具和资源。根据我们的初步测试的结果,仅Mihalcea等人提出的措施通过。2006年发现了一些令人满意的结果。
3.2基于TF /IDF 的文本到文本的语义相似性度量(SEM TFIDF)
我们提出一个评估文本到文本的语义相似性的新聚集功能,通过使用TF / IDF权重以适应前面的文本措施分类而不是通过IDF权重。事实上,TF/ IDF反映了语料库中文档特征的重要性。因此,我们测量考虑每一个被比较文件的重要性和功能,而不是其在一般语料库重要性。
这项措施被应用于被称为BOCs的索引文件的概念化中。这项措施将聚集比较文档线对到线对概念之间的语义相似性。聚合函数计算利用其表示被比较的文档之间的语义相似性,它们的概念之间的语义相似性对到对存储在语义接近矩阵。聚合函数利用其计算表示被比较的文档之间的语义相似性,以及它们的概念之间的语义相似性对到对存储在语义接近矩阵。这项措施可以在决策过程中被使用来预测监督文本的语义类别分类。
给出在同一特征空间上用BOCs和TF/ IDF加权表示的两个文本文件,我们提出了一个新的用于评估测量这些文档之间的语义相似度,按照下列公式:
其中:maxSim(C,T 2)是在概念(c)和所有概念代表(T2)之间的最大的相似性,并且F/ IDF1(c)是概念c是文档T1中的权重。事实上,这一措施是最大的相似之处的TF/ IDF加权平均值,在第一个文件中的所有概念和代表第二个的所有概念,反之亦然。接下来,我们提出监督文本分类的情况下的实验研究。下一节给出在此研究中使用的平台。
- 实验装置
为了评估文本到文本的语义相似度量的效果,我们使用下图所示的实验平台。 1.该平台采用Rocchio定义和预测作为分类技术(如图1)。该技术部署TFIDF作为权重方案和余弦,使用SemIDF和SemTFIDF相似的措施。本节介绍在本实验研究中使用的资源和工具。
Training
Training Phase
Classification Phase
Indexed
Corpus
Classification
Model
Training Phase
Training
Corpus
Conceptualized
Corpus
Vocabulary
Metamap
UMLS
Ontology
Semantic
Proximity Matrix
Text
Document
Conceptualized
Document
UMLS
Ontology
Indexed
Document
Prediction
Classification Phase
Predicted
Class
Semantic Similarity Engine sim(Ci, Cj)
Conceptualization
Indexing
图1.平台监督文本分类部署语义相似度量
一体化医学语言系统(UMLSreg;)起源于国家医学图书馆(NLM)意在建立生物医药与健康的语言模型以帮助计算机能够理解医学的语言开发。根据他们的感官分组共同概念来组织各种词汇概念源(如网,SNOMED-CT等)。我们专门选择为它提供临床术语大命名。
Ohsumed文集由从MEDLINE数据库中[17]检索到的1991年一整年生物医学文章摘要中使用的变址主题词(医学主题词)。语料库分为定义和测试集,所以实验分两个阶段进行:定义和测试。在这项工作中,我们限制该语料库,表1中列出的五种最常见的类。
表1. Ohsumed语料库
Category |
Training |
Test |
C04 |
972 |
1251 |
C23 |
976 |
1181 |
C06 |
588 |
632 |
C14 |
1192 |
1256 |
C20 |
502 |
664 |
Total |
4230 |
4984 |
MetaMap。 MetaMap[19]在该NLM开发的主要目标是使用UMLS 此标提高医疗文本检索。事实上,MetaMap可以发现医书和词表之间的联系。我们使用MetaMap结果适用完整的概念在我们早期的工作文献时,UCI概念化意味着使用概念索引期间为特征,文档从而表示为概念(BOCs)袋。
语义相似度引擎。如图1所示,语义相似度引擎计算机,使用了词汇、UMLS本体、语义接近矩阵。我们选择使用下面基于本体的语义相似度措施:(i) cdist
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[29169],资料为PDF文档或Word文档,PDF文档可免费转换为Word