基于Python的爬虫与影评统计任务书
2020-05-04 21:27:59
1. 毕业设计(论文)的内容和要求
爬虫技术指的是通过软件在网络上快速大量地提取特定信息。
本课题采用python对影评文本进行爬虫,并需要对自然语言进行学习,判断影评中对电影的认同度,最终实现对电影的准确评价。
内容包含: 1. 采用python语言对指定电影的影评进行爬虫,快速收集大量影评文字信息; 2. 采用自然语言处理(nlp)算法,自动处理每条文本,判断影评发表者对电影的支持程度,分为0-5颗星。
2. 参考文献
1. 涂小琴. 基于Python爬虫的电影评论情感倾向性分析[J]. 现代计算机, 2017(12):52-55. 2. 熊畅. 基于Python爬虫技术的网页数据抓取与分析研究[J]. 数字技术与应用, 2017(9):35-36. 3. 基于爬虫与文本挖掘的”985”高校图书馆微信公众号的调研[D]. 安徽大学, 2017. 4. 朱云杰. 大数据环境下垃圾评论过滤系统的研究与实现[D]. 东南大学, 2015. 5. 吴剑兰. 基于Python的新浪微博爬虫研究[J]. 无线互联科技, 2015(6):93-94. 6. 李浩腾, 朱信忠, 赵建民,等. 基于EKEL的影评挖掘分析方法和系统[J]. 渤海大学学报(自然科学版), 2014(3):299-306. 7. 黄昭婷, 刘媛, 丁鑫. 一种基于影评文本情感分析的电影特征模型[J]. 现代电影技术, 2017(9):26-30.
3. 毕业设计(论文)进程安排
2019-1-2 ~2019-1-12 布置设计任务、学习基本知识 2019-1-12 ~2019-2-10 查阅文献、翻译文献、完成绪论 2019-2-11 ~2019-2-20 撰写开题报告、撰写PPT 2019-2-21 ~2019-3-1 修改开题报告并进行开题答辩 2019-3-2 ~2019-3-30 掌握常规算法 2019-4-1 ~2019-4-30 编程实现所用算法 2019-5-5 ~2019-5-15 运用Python进行模拟仿真,作出性能对比实验;给出展示界面 2019-5-16 ~2019-5-25 撰写毕业论文初稿、改进系统程序 2019-5-26 ~2019-6-14 撰写毕业论文终稿 6-15之前 提交所有毕业设计正式材料电子稿与打印稿 2019-6-15 ~2019-6-18 准备答辩 2019-6-19 ~2019-6-23 答辩