基于Scrapy框架的爬虫以及数据可视化任务书

2020-06-03 21:54:57

1. 毕业设计（论文）的内容和要求

爬虫是获取数据的一种方法，通过不断地爬取网页内容，提取其中的数据并存储下来以供以后使用。

然而在爬取大量网页的时候如何归类并存储数据，如何控制爬虫的爬行，爬虫模块崩溃后如何恢复进度，是需要解决的问题。

本课题将基于scrapy构建一个爬虫系统，可以爬取某一特定网站的数据，并将其存入数据库。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 参考文献

[1] 周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. [2] 段兵营.搜索引擎中网络爬虫的研究与实现[D].西安电子科技大学,2014. [3] 刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29,47.DOI:10.3969/j.issn.1001-3695.2007.10.007. [4] 汪涛,樊孝忠,顾益军等.基于概念分析的主题爬虫设计[J].北京理工大学学报,2004,24(10):890-893.DOI:10.3969/j.issn.1001-0645.2004.10.012. [5] 周德懋,李舟军.高性能网络爬虫:研究综述[J].计算机科学,2009,36(8):26-29,53.DOI:10.3969/j.issn.1002-137X.2009.08.007. [6] 万纯.一种基于LDA的分布式主题爬虫系统的设计与实现[D].北京大学,2014. [7] Wang, Jing,Guo, Yuchun.Scrapy-Based Crawling and User-Behavior Characteristics Analysis on Taobao[C].//2012 International conference on cyber-enabled distributed computing and knowledge discovery.2012:44-52. [8] 林伟坚.基于Scrapy框架的新闻实时抓取及处理系统的设计与实现[D].南开大学,2012. [9] 王静.基于Scrapy的电子商务网络测量与网络特征分析[D].北京交通大学,2011. [10] 黄聪,李格人,罗楚等.大数据时代下爬虫技术的兴起[J].计算机光盘软件与应用,2013,(17):79-80,83. [11] 赵鹏程.分布式书籍网络爬虫系统的设计与实现[D].西南交通大学,2014. [12] 吴霖.分布式微信公众平台爬虫系统的研究与应用[D].南华大学,2015. [13] 彭纪奔,吴林,陈贤等.基于爬虫技术的网络负面情绪挖掘系统设计与实现[J].计算机应用与软件,2016,33(10):9-13,71.DOI:10.3969/j.issn.1000-386x.2016.10.003. [14] Dongxiang Xie,Wenfeng Xia.Design and Implementation of The Topic-focused Crawler Based on Scrapy[C].//Advances in applied sciences and manufacturing: Selected, peer reviewed papers from the 2013 International Forum on Materials Analysis and Testing Technology (IFMATT 2013), December 9-10, 2013, Qingdao, China.2014:481-484. [15] 宦俊伟.TrenData数据分析平台数据爬取与处理模块的设计与实现[D].南京大学,2014.

3. 毕业设计（论文）进程安排

2016年12月23日前公布工作计划、确定指导教师、申报毕业设计（论文）题目，学生选题，任务书下达，指导学生查阅文献，做好开题前期工作。

启动阶段 2017年1月13日前在广泛查阅资料的基础上，完善课题研究方案，完成外文翻译、文献综述和开题报告等工作，组织开题论证和初期检查工作。

开题阶段 2017年6月2日前进行课题的实验、设计、调研及结果的处理与分析等，完成毕业设计说明书或论文写作，进行毕业设计（论文）的审阅和修改完善；中期检查：将根据学校期中教学质量检查的有关文件通知执行。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码