短文本情感分析的研究毕业论文
2020-02-16 22:26:49
摘 要
在互联网技术高速发展和互联网应用日益普及的背景下,以短文本方式存在的用户评论、社交文本在共享经济、体验经济中扮演着越来越重要的角色。短文本情感分析能帮助我们把握舆论走向、做好商业决策、进行统计分析,为舆情治理、商品评价、网络营销提供重要的依据,是目前自然语言处理领域比较热门的话题。
本课题以短文本为研究对象,借助知网情感词典和大连理工情感词汇本体库构建情感特征词数据库,通过分词、去除停用词等文本处理手段从短文本中提取相关词语,并且通过构建好的数据库从这些词语中提取相应的特征词,从词语的情感极性,强度,否定成分的维度入手设计情感分析算法,识别文本的三极化情感极性(积极、消极、中立),并且用相关性分析的手段界定中立情感的判断指标,确保了算法的科学性与准确性。
实验结果表明,本课题给出的两极化情感极性(积极、消极)分析算法总体正确率达到85%,召回率达到75%,F1指标达到79%;三极化情感分析算法也达到了较好的短文本情感极性分类效果,与百度自然语言处理工具处理得到的结果达到了66%的完全匹配度。
关键词: 短文本 ;情感分析 ;情感词典
Abstract
In the context of the rapid development of Internet technology and the increasing popularity of Internet applications, user comments and social texts that exist in short texts play an increasingly important role in the sharing economy and experience economy. Short-text sentiment analysis can help us grasp the direction of public opinion, make good business decisions, conduct statistical analysis, and provide important basis for public opinion governance, commodity evaluation, and network marketing. It is a hot topic in the field of natural language processing. This thesis will take short text as the research object, construct the sentiment feature word database by using the HowNet Emotion Lexicons and the Dalian Science and Technology Emotion Lexicons, extract relevant words from short texts through text processing methods such as word segmentation and stop words, and build A good database extracts the corresponding feature words from these words, and starts to design the sentiment analysis algorithm from the dimensions of the emotional polarity, intensity, and negative components of the words, and recognizes the tripolar emotional polarity (positive, negative, neutral) of the text, and The method of correlation analysis is used to define the judgment indicators of neutral emotions, which ensures the scientificity and accuracy of the algorithm.
The experimental results show that the sentiment analysis algorithm of this subject is in the two-level analysis (positive,negative), the overall correct rate reaches 85%, the recall rate reaches 75%, and the F1 index reaches 79%. In the tripolar analysis, the analysis results It conforms to the expected model and is matched with about two-thirds of the results processed by Baidu's natural language processing tool. Overall, it achieves a good short text sentiment polarity classification effect.
Key Word : short texts ; sentiment analysis ; sentiment lexicons
目录
第一章 绪论 4
1.1 研究的目的和意义 4
1.2 国内外研究现状 5
1.3 研究内容 5
第二章 情感词典的构建 7
2.1 情感分析与短文本 7
2.1.1 情感分析 7
2.1.2 短文本 7
2.2 常用情感词典的分析 7
2.2.1 概述 7
2.2.2 情感词典 7
2.2.3 常用情感词典及其特点 7
2.2.4 情感词典的选择和优先级 8
2.3 基于MongoDB的情感词典的构建 8
2.4 构建情感特征词数据库 9
2.5 构建否定词数据库 10
2.6 对情感词典的部分调整 10
第三章 短文本情感分析 12
3.1 情感分析算法概述 12
3.2 短文本的处理 12
3.2.1 文本的初步处理 12
3.2.2 分词 12
3.2.3 停用词 14
3.2.4 文本处理小结 14
3.3 情感分析算法的设计 15
3.4 相关性分析 17
3.4.1 相关性分析的目的 18
3.4.2 Pearson相关系数 18
3.4.3 如何应用Pearson相关性分析 19
3.4.4 Pearson相关性分析过程 20
3.4.5 相关性分析结论 22
3.5 情感分析实例 23
第四章 实验结果与分析 24
4.1 两极化(积极、消极)实验与分析 24
4.1.1 情感两极化分析 24
4.1.2 实验数据准备 24
4.1.3 实验评价指标 25
4.1.4 实验结果与分析 25
4.2 三极化(积极、消极、中立)实验与分析 26
4.2.1 情感三极化分析 26
4.2.2 百度NLP工具集 26
4.2.3 实验数据准备 27
4.2.4 实验评价指标 28
4.2.5 实验结果与分析 29
第五章 可视化系统实现 30
5.1 系统功能 30
5.2 系统架构 30
5.3 系统实现情况 31
5.3.1 短文本情感分析模块 31
5.3.2 豆瓣书评分析展示模块 35
第六章 总结和展望 38
6.1 工作总结 38
6.2 对情感分析的思考和展望 38
参考文献 39
致 谢 41
第1章 绪论
1.1 研究的目的和意义
截至2018年12月,我国网民数量超过8亿,网络普及率达到55%以上,各类互联网应用(比如微博、抖音、淘宝、豆瓣)的用户规模和影响力都呈现出爆炸式增长的趋势。由此可见,随着互联网技术的不断发展,网络已经涉及生活中的方方面面,改变着我国人民的交流协作方式。与此同时,越来越多的人喜欢在社交媒体上发表个性化的情感和观点来表达自己对某个事件的看法,或是对一本书或是一部电影有自己独到的感受。我们常常在电商网站购买商品后,消费者会在产品相应的评论区域留下自己对所购买物品的看法。这些评论信息常常是简短并且带有明显情感倾向和情感特征的信息,这些信息可以帮助我们有效地分析人们对某个事物的情感态度,比如某件商品是否好用,是否有质量问题,价格是否合适等等。但是随着评论信息的快速增长,仅仅依靠人工方法很难对评论信息进行收集及处理,因此迫切希望计算机能够快速获取并分析这些评论信息,在这种情况下下就需要短文本情感分析技术来帮助我们快速分析用户情感倾向。
从个人的角度考虑,在信息爆炸的今天,每个人都是信息发布的中心。绝大多数人往往没有精力在海量信息中浏览并归纳出某个事物的好坏以及他人对其的评价。短文本情感分析能迅速得出大家的情感倾向,帮助用户寻找到适合自己的商品、书籍、电影等等,降低用户的浏览成本。
从社会的角度考虑,现在流行的评分系统已经不能完全表现出事物的客观评价,通过短文本情感分析可以帮助人们快速分析定位某些事件舆论倾向,洞察实事发展方向,以适应整个社会快速高效的发展节奏。
从商用性的角度考虑,短文本情感分析能帮助商家分析用户对于商品或是商业服务的评价,及时调整商业策略,提高商业活动中的灵活性,使商家能更深入地了解用户所需要的东西。
1.2 国内外研究现状
理解情感一直是国内外自然语言处理研究者感兴趣的话题,目前主流的情感分析方法为:基于情感词典,早期的基于机器学习的方法,以及最近流行的基于神经网络模型的方法。
情感词典是基于语义分析的方法,通过统计和分析文本中的情感词的褒贬性来判断文本的情感倾向,如Hu and Liu情感词典、MPQA情感词典、知网情感词典等等。基于情感词典的情感分析方法目前最主要的问题在于:常常忽略词与词以及上下文之间的关系,对于未在词典中出现的词语不敏感并且难以识别。
神经网络算法主要包括卷积神经网络、递归自编码网络、长短期记忆神经网络等等。尽管这些神经网络模型能达到非常好的效果,但是仍然存在一定的缺陷:比如递归自编码网络和长短期记忆神经网络非常依赖短语级别标注,神经网络模型缺乏语言学相关知识(强度词、否定词等等)。
1.3 研究内容
本课题的研究目标是:借助情感词典,研究一个情感分析算法,对于任意短文本的输入,能够输出其情感极性(积极、消极、中立)。本课题的研究具体内容包括:
1.了解并掌握各类情感词典的特点和区别,选取适合的情感词典,构建情感词典数据库。
2.准备用于短文本情感分析的数据集以及人工标注的素材,并且对数据进行清洗,整理。
3.设计基于情感词典的情感分析算法识别短文本情感极性,并且验证其科学性、可靠性。
4.用可靠的数据与方法验证算法的准确率、召回率以及F1指标,并将此算法得到的结果与百度AI平台NLP工具集得到的结果进行对比,分析出相应的结论。
5.制作相应的可视化界面实现上述研究内容。
第2章 情感词典的构建
2.1 情感分析与短文本
在进行短文本情感分析之前,我们必须清楚情感分析的含义以及短文本的特点。
2.1.1 情感分析
情感是人对客观事物是否满足自己的心理诉求的主观体验,一般体现在人们对于某个事物的评价、情绪或观点。在评论情感分析中,情感被认为等同于用户对事物的观点、评价,因此,情感分析又称意见挖掘,是自然语言处理的范畴之一,涉及到机器学习、数据挖掘、信息检索等多个研究领域。情感分析主要是对语料集进行情感极性分析(一般为积极、消极、中立)和情感极性强度分析,从简单一点的角度来看,情感分析就是对具有一定情感倾向的文本的推理、分析、归纳的过程。
2.1.2 短文本
短文本指的是长度一般不超过200字的简短文本,比较常见的有微博评论、商品评价、豆瓣书评等等。短文本是目前互联网中信息产生的主要形式,因此研究一种针对短文本的情感分析方法是目前自然语言处理研究领域一个比较关键的问题。同时短文本具有特征稀疏性、奇异性、动态性、交错性等特点,在语言处理过程中也会有一定的难点。
2.2 常用情感词典的分析
2.2.1 概述
由上一章,我们知道情感分析主要有基于情感词典和神经网络的方法,也了解了它们各自的优势和劣势。在本课题中,我们需要进行情感分析的素材是短文本,短文本的特点就在于其长度较短,弱化了上下文之间的关系,因而选取基于情感词典的方法,从语义的角度更有利于我们从比较精炼的文本中判断情感极性。
以上是毕业论文大纲或资料介绍,该课题完整毕业论文、开题报告、任务书、程序设计、图纸设计等资料请添加微信获取,微信号:bysjorg。
相关图片展示: