基于Python的爬虫与影评统计毕业论文
2020-04-15 21:03:40
摘 要
本文研究中选取豆瓣电影作为影评收集来源,通过对豆瓣电影页进行解析爬取并存储电影。然后通过将数据库导出数据进行中文分词,提取关键词组构建词典,将影评数字向量化。最后通过神经网路输出判断影评的情感倾向。本文首先影评分析统计采用的自然语言处理技术的意义、研究难点、研究现状进行了分析和介绍;并且还介绍了采集和分析数据的各种基于python的三方库和相关算法,包括采集数据使用的网络请求模块urllib,还有操作数据库模块pymysql、数据处理中用于中文分词模块jieba等;然后通过搭建LSTM神经网络并导入数据进行训练并保存。最后在爬取特定电影影评经过处理后导入神经网络进行分析和统计;最后为了更好的进行人机交互使用python的Tkinter三方库设计并编写了相关的GUI界面。
关键词:爬虫;影评;情感分析;LSTM
Python based crawler and movie review statistics
Abstract
In this study, douban films were selected as the source of film review collection, and the pages of douban films were analyzed to crawl and store the films. Then, Chinese word segmentation is carried out by exporting data from the database, and key phrases are extracted to construct a dictionary, and the film review Numbers are vectorized.
Finally, the output of neural network is used to judge the emotional tendency of the film critics. This paper first analyzes and introduces the significance, research difficulties and research status of natural language processing technology used in film review analysis and statistics.
It also introduced various python-based third-party libraries and related algorithms for data collection and analysis, including urllib, the network request module used for data collection, pymysql, the operational database module, and the Chinese word segmentation module for data processing, etc.
Then the LSTM neural network is built and the data is imported for training and storage. At last, the specific film reviews were processed and imported into the neural network for analysis and statistics. Finally, in order to better carry out human-computer interaction, the relevant GUI interface is designed and written using python's Tkinter tripartite library.
Key words: Reptilian; Film review; Emotion analysis; LSTM
目录
摘 要 I
Abstract II
第一章 绪论 1
1.1 研究背景 1
1.2 研究意义 3
1.3 研究详述 4
1.4 文章的组织结构 6
第二章 对自然语言处理(NLP)算法的初步认识 8
2.1 了解自然语言处理(NLP)的基本知识 8
2.2对自然语言处理(NLP)的算法介绍 9
2.2.1 卷积神经网络 9
2.2.2 循环神经网络 9
2.2.3长短期记忆网络 10
2.3 本章小结 13
第三章 数据收集 14
3.1 数据来源 14
3.2 数据收集 15
3.3 数据存储 18
3.4 数据的分类与导入 19
3.5 本章小结 20
第四章 影评分类模型建立及结果分析展示 21
4.1数据的处理 21
4.2 神经网络模型搭建 23
4.2.1 神经网络框架选取 23
4.2.2神经网络参数的选择 23
4.3 实验结果分析与统计 25
4.4 GUI界面的设计 27
4.5 本章小结 30
第五章 总结和展望 31
参考文献 32
致 谢 34
附 录 35
第一章 绪论
1.1 研究背景
随着互联网的普及和发展,在当今的网络空间电子数据量愈来愈大。根据中国互联网络信息中心(CNNIC)在京发布第42次《中国互联网络发展状况统计报告》。截至2018年6月.我国网民规模达8.02亿,互联网普及率为57.7%;2018年上半年新增网民2968万人,较2017年末增长3.8%,我国手机网民规模达7.88亿,网民通过手机接入互联网的比例高达98.3%[1]。
图1.1 中国网站增长图
随着人工智能在人们日常生活中的普及,人机对话领域逐渐成为学术领域和商业领域关注的重点,人机交互简而言之就是人类和计算机进行交流沟通,正是因为人机对话的技术要求存在的种种难题,所以要大力推动自然语言理解、语音识别与合成、自然语言生成等研究的发展。而我们的生活中也处处充满了人机交互的影子,包括window上的小娜的人工智能助手的语音识别,还有日常交流中的QQ、微信等的语音输入,还有各种生产生活中各种自动化装置对人类指令的识别和处理等等,如果要实现上述的种种功能,其中最重要的就是对用户情感的分析和辨识,也就是NLP领域的情感分析任务。
NLP领域的情感分析又称为情感倾向性分析,在实际的应用中主要表现为对拥有一定个人情感的文本惊醒分类、处理、归纳、总结的过程。例如,从电影网站影评中辨识出观众对电影的评价的贬褒,从文本中分析用户对产品的各种属性的评价,甚至可以从大量的文本和数据中判断股票市场的投资者的投资倾向性从而达到预测股票走势等。识别用户对人或者事物的态度和看法是情感分析的主要目的。在一般的情况下,人类对一个具体的事物的评价都是相对固定的,但是在评价电影或者其他艺术创作方面,一个人的评价不仅仅包含了对演员、作者、编剧、和最终成片的总体评价,是对多方面的评价。而且在对一个演员或者一个导演提出的评价往往是具有多变性的,毕竟每个人都有每个人自己的见解和侧重点。因此,在实现对大众的影评进行情感分析有着较大的难度。这也就是说采用一种特定的神经网络模型对影评进行情感分类准确度要远远低于其他确定的商品评价。
以上是毕业论文大纲或资料介绍,该课题完整毕业论文、开题报告、任务书、程序设计、图纸设计等资料请添加微信获取,微信号:bysjorg。
相关图片展示: