基于递归神经网络的电影评论情感分析毕业论文
2022-01-16 18:50:33
论文总字数:26702字
摘 要
本文首先分析了电影评论情感分析这一课题的研究背景,说明了目前国内电影评论数据积累速度快、研究价值高的现状,并简要介绍了自然语言特征提取等相关技术的背景与发展状况。
本文以研究各类递归神经网络在影评情感分析的应用效果为目的,对RNN、LSTM、GRU三类网络的基本思想进行了比较分析,从Word2vec和递归神经网络的理论原理出发,详细介绍了使用递归神经网络处理情感分析任务的具体过程,并阐述了使用Python语言、基于TensorFlow框架开发进行特征提取和情感分析的详细流程。
最后,本文描述了基于wxPython开发电影评论情感分析研究平台的开发过程,介绍了该平台模型生成、管理和测试等功能的实际使用效果,并以表格的形式比较了在统一超参数的前提下,各类递归神经网络的实际表现情况。
关键词:电影评论 递归神经网络 word2vec wxPython
Sentiment Analysis of Movie Criticism Based on Recurrent Neural Network
Abstract
This thesis first analyzes the research background of the subject of film commentary sentiment analysis, and points out the current situation of rapid accumulation of research and evaluation of domestic film review data, and briefly introduces the background and development of related technologies such as natural language feature extraction.
In order to study the application effects of various recurrent neural networks, this thesis gives personal insights into the basic ideas of RNN, LSTM and GRU networks. From the theoretical principles of Word2vec and recurrent neural networks, this paper introduces the use of recurrent neural networks in detail. The network processes the specific process of sentiment analysis tasks, and discusses the detailed process of developing feature extraction and sentiment analysis models based on TensorFlow framework using Python language.
In the stage of results presentation, this paper presents a research platform for film commentary sentiment analysis based on wxPython, introduces the actual use effect of the platform's model generation, management and testing functions, and compares the super-parameters in the form of a table. Under the premise, the actual performance of various types of recurrent neural networks.
Keywords: movie review;recursive neural network;word2vec;wxPython
目 录
摘 要 I
Abstract II
第一章 绪论 1
1.1 研究背景 1
1.2 相关研究现状 2
1.3 本毕业论文的内容和结构 4
第二章 相关技术介绍 5
2.1 Word2vec 5
2.2 递归神经网络 5
2.3 TensorFlow 9
2.4 wxPython 10
第三章 基于递归神经网络的情感分析过程 11
3.1 预处理 11
3.2 特征提取 11
3.3 模型训练 13
第四章 系统设计与实现 15
4.1 算法的设计 15
4.1.1 语料集预处理 15
4.1.2 Word2vec生成词向量 16
4.1.3 基于TensorFolw的网络模型搭建 18
4.2 用户界面设计 23
4.3 主要用户界面 26
4.4 各模型训练效果比较 29
第五章 总结与展望 31
5.1 总结 31
5.2 展望 31
参考文献 32
致谢 34
第一章 绪论
1.1 研究背景
根据2018年下半年统计显示,中国内地票房规模为271.2亿元,其中有接近80%的电影票通过网络渠道卖出,较高的在线电影购票率意味着越来越多的观影群体在网络电影平台的引导下,对看过的电影发表自己的评论、表达对某个电影的意见和看法,美团、豆瓣、猫眼等观影平台的注册用户数量和电影评论数量都在高速增长。
电影评论包含着用户对于电影在故事内容、选角、导演水平、表演、视觉效果等相关内容的自身想法,随着影评数据量快速增大,其可挖掘的价值也越来越高,合理地利用影评背后所隐含的信息,对于辅助观影选择、了解市场趋向、指导商业电影投资、调整电影制作方式等方面具有重大的价值。
图1-1 IMDB、豆瓣网上的电影评论
深度学习成为计算机行业最热门的领域之一,人工智能的火热离不开大数据技术的积累和计算机运行性能的大幅提升,该领域旨在通过计算机算法模拟人脑神经元结构,借助生活中产生的海量数据指导计算机自行学习其背后蕴含的逻辑关系,从而自主完成分类、回归、预测等任务,反向指导人们的生产学习,为日常生活带来便利,自然语言处理作为该领域中的一个重要研究方向,以其背后蕴含的巨大工业价值以及部分相关研究的空白,有越来越多的人力和资本投入钻研。
1.2 相关研究现状
近年来大数据与人工智能发展火热,自然语言处理技术作为其中的一大领域,因为在AI翻译、语音识别等产品上的巨大前景被给予厚望,作为自然语言处理技术完善的一个首要技术,文本特征提取技术正呈现多样性的高速发展,在基于规则方法成为历史后,基于统计方法而诞生的建模技术在不断推陈出新。
词袋法(Bags of words)是将训练集中所有出现过的单词做成一个字典,统计每个单词出现的次数作为特征,词袋法特征统计的是单词的出现次数,但这样在长文本中,单词的出现次数会大于短文本,可能造成不公平问题。为了解决词袋法所带有的对长、短不公平的现象,基于TF特征的方法就被提出,用于统计词频。为了处理无用词语出现频率过高的问题,TF-IDF应运而生,该方法让词条的重要性随着在语料库中出现频率的增加而减少。
请支付后下载全文,论文总字数:26702字