基于Scrapy框架的爬虫以及数据可视化任务书
2020-06-03 21:54:57
1. 毕业设计(论文)的内容和要求
爬虫是获取数据的一种方法,通过不断地爬取网页内容,提取其中的数据并存储下来以供以后使用。
然而在爬取大量网页的时候如何归类并存储数据,如何控制爬虫的爬行,爬虫模块崩溃后如何恢复进度,是需要解决的问题。
本课题将基于scrapy构建一个爬虫系统,可以爬取某一特定网站的数据,并将其存入数据库。
2. 参考文献
[1] 周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. [2] 段兵营.搜索引擎中网络爬虫的研究与实现[D].西安电子科技大学,2014. [3] 刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29,47.DOI:10.3969/j.issn.1001-3695.2007.10.007. [4] 汪涛,樊孝忠,顾益军等.基于概念分析的主题爬虫设计[J].北京理工大学学报,2004,24(10):890-893.DOI:10.3969/j.issn.1001-0645.2004.10.012. [5] 周德懋,李舟军.高性能网络爬虫:研究综述[J].计算机科学,2009,36(8):26-29,53.DOI:10.3969/j.issn.1002-137X.2009.08.007. [6] 万纯.一种基于LDA的分布式主题爬虫系统的设计与实现[D].北京大学,2014. [7] Wang, Jing,Guo, Yuchun.Scrapy-Based Crawling and User-Behavior Characteristics Analysis on Taobao[C].//2012 International conference on cyber-enabled distributed computing and knowledge discovery.2012:44-52. [8] 林伟坚.基于Scrapy框架的新闻实时抓取及处理系统的设计与实现[D].南开大学,2012. [9] 王静.基于Scrapy的电子商务网络测量与网络特征分析[D].北京交通大学,2011. [10] 黄聪,李格人,罗楚等.大数据时代下爬虫技术的兴起[J].计算机光盘软件与应用,2013,(17):79-80,83. [11] 赵鹏程.分布式书籍网络爬虫系统的设计与实现[D].西南交通大学,2014. [12] 吴霖.分布式微信公众平台爬虫系统的研究与应用[D].南华大学,2015. [13] 彭纪奔,吴林,陈贤等.基于爬虫技术的网络负面情绪挖掘系统设计与实现[J].计算机应用与软件,2016,33(10):9-13,71.DOI:10.3969/j.issn.1000-386x.2016.10.003. [14] Dongxiang Xie,Wenfeng Xia.Design and Implementation of The Topic-focused Crawler Based on Scrapy[C].//Advances in applied sciences and manufacturing: Selected, peer reviewed papers from the 2013 International Forum on Materials Analysis and Testing Technology (IFMATT 2013), December 9-10, 2013, Qingdao, China.2014:481-484. [15] 宦俊伟.TrenData数据分析平台数据爬取与处理模块的设计与实现[D].南京大学,2014.
3. 毕业设计(论文)进程安排
2016年12月23日前 公布工作计划、确定指导教师、申报毕业设计(论文)题目,学生选题,任务书下达,指导学生查阅文献,做好开题前期工作。
启动阶段 2017年1月13日前 在广泛查阅资料的基础上,完善课题研究方案,完成外文翻译、文献综述和开题报告等工作,组织开题论证和初期检查工作。
开题阶段 2017年6月2日前 进行课题的实验、设计、调研及结果的处理与分析等,完成毕业设计说明书或论文写作,进行毕业设计(论文)的审阅和修改完善;中期检查:将根据学校期中教学质量检查的有关文件通知执行。