基于Scrapy的影评分布式爬取及电影推荐系统任务书
2020-04-21 17:12:56
1. 毕业设计(论文)的内容和要求
为了实现基于scrapy的影评分布式爬取及电影推荐系统,包括以下功能: 1.影评分数的获取:使用python的scrapy框架对于影评打分进行分布式爬虫。
2.数据处理:将爬取得到的数据转化为可以进行处理的二部图。
3.研究协同过滤推荐算法,特别是simrank算法,基于用户打分来计算节点相似度。
2. 参考文献
[1]刘硕. 精通Scrapy网络爬虫[M]. 北京:清华大学出版社, 2017. [2]韦玮. 精通Python网络爬虫 核心技术、框架与项目实战[M]. 北京:机械工业出版社, 2017. [3]胡松涛. PYTHON 网络爬虫实战[M]. 北京:清华大学出版社, 2017. [4](美)莱斯科夫,(美)拉贾拉曼,(美)厄尔曼. 大数据 互联网大规模数据挖掘与分布式处理 第2版[M]. 北京:人民邮电出版社, 2015. [5]张良均. Python与数据挖掘[M]. 北京:机械工业出版社, 2016. [6]刘慧,李凤银,禹继国,崔璨,葛睿. 基于影评挖掘的电影推荐系统设计与实现[J]. 电子技术,2018(12):83-86. [7]周显春. 基于个人简历的Scrapy设计与实现[J]. 现代计算机(专业版),2018(16):85-88. [8]邓万宇,刘光达,董莹莹. 一种基于Scrapy-Redis的分布式微博数据采集方案[J]. 信息技术,2018(11):59-62. [9]樊宇豪. 基于Scrapy的分布式网络爬虫系统设计与实现[D]. 电子科技大学,2018. [10]杨君,陈春玲,余瀚. 基于Scrapy技术的数据采集系统的设计与实现[J]. 计算机技术与发展,2018,28(10):177-181. [11]刘泽华,赵文琦,张楠. 基于Scrapy技术的分布式爬虫的设计与优化[J]. 信息技术与信息化,2018(Z1):121-126. [12]许晟. 基于加权SimRank的中文查询推荐研究[A]. 中国中文信息学会信息检索与内容安全专业委员会.第五届全国信息检索学术会议论文集[C].中国中文信息学会信息检索与内容安全专业委员会:中国中文信息学会,2009:10. [13]马云龙. 基于权重标准化SimRank方法的查询扩展技术研究[A]. 中国中文信息学会信息检索与内容安全专业委员会.第六届全国信息检索学术会议论文集[C]. 中国中文信息学会信息检索与内容安全专业委员会:中国中文信息学会,2010:8. [14]杨源. 基于权重标准化SimRank与半监督学习的产品属性归类[A]. 中国中文信息学会.中国计算语言学研究前沿进展(2009-2011)[C]. 中国中文信息学会:中国中文信息学会,2011:6. [15]刘佳玮,洪蕾,陈妍,姜镇东. 基于电影系统的协同过滤算法的改进[J]. 电子技术与软件工程,2018(01):181-182.
3. 毕业设计(论文)进程安排
起讫日期 设计(论文)各阶段工作内容 备 注 12.26-1.15 确定选题,下达任务书。
2018年 1.6-2.22 查阅文献,撰写开题报告。
2019年 2.23-3.5 学习python语法。