基于分类算法的反语特征识别研究文献综述
2020-04-14 15:57:27
1.1选题的目的和意义
随着互联网的快速发展,用户在互联网平台上发表的评论、见解在舆论监测、社会调查、市场营销、决策支持有着重要的意义。而由于语言的灵活性和用户情感的复杂性,在社交媒体文本中出现了越来越多的特殊的修辞手法,如讽刺、反语、幽默等。这些特殊的修辞手法的运用往往会对用户情感分析的结果带来一些错误和偏差,其中反语修辞就是一个典型的例子。本文旨在以两种不同的方式提取的反语特征数据集为基础,对其分别采用朴素贝叶斯、支持向量机和决策树三种分类算法进行反语识别实验,根据实验得出的F值、召回率以及精度三项指标,综合分析归纳识别反语特征的规律。
在社交网络中,反语已成为一种普遍的语言表达方式,特别是在微博这类包含符号、图片和短文本等信息的分享传播平台,以及王者荣耀这类用户热衷于通过发表言论表达自己或欣喜、或不满情绪的游戏平台,用户常常使用反语表达如嘲弄或讽刺等强烈情感倾向,例如“结婚纪念日买到了假货,真是一个美好的纪念”,仅仅从字面上理解该语句可能会被认为是表达积极情感倾向的语句,但是该语句真正要表达的是一种无奈和嘲讽的消极情感倾向,而在用户反馈、舆论监测、决策支持中,这样的偏差可能将导致决策者无法真正了解到用户的需求和痛点,从而做出错误的决策。因此,如何自动识别反语语句已经变成了自然语言处理领域的一项挑战。而现阶段,反语识别的可计算化研究主要集中在以英文为代表的外文反语识别,但与英文反语识别相比,中文通常使用谐音词或歧义词等来表达反语情感,这也使得中文反语识别无法简单地直接运用针对外文反语识别的研究。所以,对于中文反语识别技术的研究具有非常深远的意义。
1.2国内外研究现状及发展趋势
1.2.1国外文献
Gibbs R W等(2007)[9]从心理学角度分析了口语中反语的形成和实用性。
Antonio Reyes等(2012)[1],根据内容词和用户生成的标签从Twitter中检索到的数据集构建了一个新的反讽检测模型,该模型是沿着代表性和相关性两个维度构建的,采用的试验方法为朴素贝叶斯和决策树两种算法。
随后Antonio Reyes(2012) [2]在上文基础上试图从计算的角度找到如何识别讽刺意味的客户评论的方法,收集了亚马逊的讽刺评论作为一个数据集,使用朴素贝叶斯、决策树和支持向量机三种分类器评估结果,提供了有价值的见解。
Bouaziz M等(2016)[12]也做了相关的研究,认为反语识别对
提升在社交网络数据上的自动化情感分析非常有用,并且提出了4个反语特征:情感相关特征、标点相关特征、句法特征和模式特征。