基于深度学习的文本情感分析的研究毕业论文
2021-04-05 00:35:57
摘 要
随着科学与技术的发展,互联网电子商务也变得越来越热门,越来越多的人们在网上购物并发表对每个商品以及每种服务各个方面的观点、看法与评价,这些文本评论都是非常有价值的,让客户在选择商品的过程中有一个真实的参考,同样也能让商户在这些评论中找到自己需要改善的地方从而能够更好的为客户提供商品与服务,甚至还能从客户的反映中找到新的商机。于是通对这些文本评论进行情感分析就显得尤为重要,能够更加方便人们的生活。
文本情感分析是自然语言处理中一个技术范畴,通常来说情感分析的目的就是为了找出人们针对某个实体(包括产品、机构、组织、服务、事件、话题等)表达出来的主观观点、情感、态度、评价和情绪,而情感分析的研究主要集中在,情感分类、观点概括、评价点抽取以及垃圾观点识别四个方向,其中情感分类是研究最广的问题,它主要是判断主观文本所表达的正负面的倾向性。
目前,国外的情感分类研究已经趋向于成熟,但是中文不同于英文,中文语言环境复杂,文本结构形式多样,边界识别也不同于英文文本中词间有空格那么容易界定以及词义句义都会根据上下文语义而产生不同的含义,所以中文的情感分类也更加复杂,使得这个研究领域也越来越热门。传统的情感分类方法主要是通过人工构建情感词典或者对不同领域的文本选择相应的特征选择方法,这些都显得过于繁琐复杂。本文就是根据分析总结传统情感分类方法的基础上,使用深度学习的方法来自动提取文本情感特征,从而进行情感分类。其中比较关键的内容有词向量模型,循环神经网络的搭建以及情感模型的生成。先收集语料,然后对语料进行预处理,接着生成词向量模型和情感模型最后对文本进行验证预测,最后得出结论。其中本文使用jieba分词来对语料进行预处理,使用gensim库来生成词向量模型,使用LSTM以及GRU算法来搭建循环神经网络,训练情感模型,使用回调函数在训练过程中不断改进参数以达到更好的训练效果,最后能够debug找出模型判断错误的内容并加以分析改进。
关键词:情感分类;词向量;循环神经网络;深度学习
Abstract
With the development of science and technology, e-commerce has become more and more developed. More and more people are shopping online and publishing opinions, opinions and evaluations on every commodity and every aspect of each service. Very valuable, so that customers have a real reference in the process of selecting goods, also allows merchants to find out where they need to improve in these comments so as to better provide goods and services to customers, and even Find new business opportunities in the customer's response. Therefore, it is especially important to conduct emotional analysis on these text comments, which can make people's lives more convenient.
Text sentiment analysis is a technical category in natural language processing. Usually, the purpose of sentiment analysis is to find out the subjective opinions and emotions that people express on an entity (including products, institutions, organizations, services, events, topics, etc.). Attitude, evaluation and emotion, while the research of sentiment analysis mainly focuses on four categories: sentiment classification, viewpoint summarization, evaluation point extraction and junk opinion recognition. Emotion classification is the most widely studied problem. It mainly judges subjective texts. The positive and negative tendencies of expression.
At present, foreign sentiment classification research has become more mature, but Chinese is different from English, Chinese language environment is complex, text structure is diverse, boundary recognition is also different from English text, there is a space between words, so easy to define and word meaning will be based on context. Semantics produces different meanings, so the emotional classification of Chinese is more complicated, making this research field more and more popular. The traditional method of emotional classification is mainly to construct an emotional dictionary manually or to select corresponding feature selection methods for texts in different fields, which are too complicated and complicated. This paper is based on the analysis and summary of the traditional sentiment classification method, using the deep learning method to automatically extract the text emotional features, and thus the emotional classification. Among the more important ones are the word vector model, the construction of the cyclic neural network and the generation of the emotional model. The corpus is collected first, then the corpus is preprocessed, and then the word vector model and the sentiment model are generated. Finally, the text is verified and predicted, and finally the conclusion is drawn. In this paper, the jieba participle is used to preprocess the corpus, the gensim library is used to generate the word vector model, the LSTM and GRU algorithms are used to build the circulatory neural network, the sentiment model is trained, and the callback function is used to continuously improve the parameters during the training process to achieve better. The training effect, in the end, can debug the model to determine the content of the error and analyze and improve.
Key Words:Sentiment classification;Word vector;Recurrent neural network;Deep learning
目 录
摘 要 I
Abstract II
第1章 绪论 1
1.1 研究背景 1
1.2 国内外研究现状 2
1.2.1 国外研究现状 2
1.2.2 国内研究现状 3
1.3 本文主要研究内容以及组织结构 3
1.3.1 本文主要研究内容 3
1.3.2 本文组织结构 4
第2章 情感分析的技术讨论 5
2.1 基于词典的情感分析 5
2.2 基于机器学习的情感分析 7
2.3 基于深度学习的情感分析 7
2.4 本章小结 11
第3章 基于深度学习的情感分析系统设计 12
3.1 基于深度学习的情感分析系统的构成 12
3.2 语料收集与预处理 12
3.3 词向量模型的形成 13
3.4 基于神经网络的情感模型的设计 14
3.5 本章小结 16
第4章 情感分析系统的实现 17
4.1 开发环境 17
4.2 数据预处理的实现 17
4.3 词向量模型生成的实现 20
4.4 情感模型生成的实现 22
4.5 文本情感分类的实现 24
4.6 测试与结果分析 24
4.7 本章小结 26
第5章 总结与展望 27
5.1 工作总结 27
5.2 未来展望 27
参考文献 28
致 谢 29
第1章 绪论
1.1 研究背景
近年来,随着互联网的发展,电子商务也随着越来越流行,大数据分析与处理技术也在不断更新换代,网络中的评论文本数据也有了分析的可能性与必要性。网络中各个产品服务下面都充斥着各种各样的评论数据,它们都是非常有价值意义的,这些数据表现了用户对这件产品的喜爱厌恶以及某种趋势,能够给其他将要消费的客户一种参考,并能让公司或者商户从这些评论数据中找出自己产品的优点以及不足来加以发扬或者是改进,甚至是能够开发新的市场。但是这些文本评论数据都是零零散散的、非结构化的,这种数据并不利于计算机进行直接处理,所以研究处理这种数据的方法是一个很重要也是很有挑战性的课题。根据国互联网络信息中心(CNNIC)发布的第42次《中国互联网络发展状况统计报告》,图1-1和图1-2是中国网民规模和互联网普及率以及网络购物/手机网络购物用户规模及使用率,可以看出截至2018年6月,我国网络购物用户规模达到5.69亿,相较2017年末增长6.7%,占网民总体比例达到71.0%[[1]]。手机网络购物用户规模达到5.57亿,相较2017年末增长10.2%,使用比例达到70.7%[[2]]。可以发现网络以及网络购物规模在飞速发展,所以挖掘这些评论文本数据发现用户的情感倾向以及需求喜好,具有越来越大的价值以及需求。