基于Python的网络爬虫系统的设计与实现任务书
2020-06-23 21:00:07
1. 毕业设计(论文)的内容和要求
随着互联网技术的迅速发展,网络成为了大量信息的载体。
信息的获取对于各个公司以及个人都是非常重要的,传统的搜索引擎虽然能够获取信息但依然存在着诸多局限性,例如搜索引擎提供的信息大有大量用户所不需要的多余信息。
不同背景的公司以及个人对于信息的具体要求不尽相同,所以需要设计一个网络爬虫能够快速高效地获取符合自己需求的信息。
2. 参考文献
参考文献: [1]姜杉彪, 黄凯林, 卢昱江,等. 基于Python的专业网络爬虫的设计与实现[J]. 企业科技与发展, 2016(8):17-19. [2]RichardLawson. 用Python写网络爬虫.[M] 人民邮电出版社, 2016. [3] 钱程, 阳小兰, 朱福喜. 基于Python的网络爬虫技术[J]. 黑龙江科技信息, 2016(36):273-273. [4]李勇,韩亮.主题搜索引擎中网络爬虫的搜索策略研究[J]。
计算机与数字工程,2008,228{10}:50-53. [5] 罗刚. 自己动手写网络爬虫[M]. 清华大学出版社, 2016. [6] 安子建. 基于Scrapy框架的网络爬虫实现与数据抓取分析[D]. 吉林大学, 2017. [7] 王毅桐. 分布式网络爬虫技术研究与实现[D]. 电子科技大学, 2012. [8] 孟军, 覃海奎, 刘洁,等. 分布式网络爬虫设计研究[J]. 现代计算机, 2017(24). [9] Salakhutdinov R, Mnih A. Bayesian probabilistic matrix factorization using Markov chain Monte Carlo[C]// International Conference on Machine Learning. ACM, 2008:880-887. [10]李琳. 基于Python的网络爬虫系统的设计与实现[J]. 信息通信, 2017(9):26-27. [11] 王凤红. 简单分布式网络爬虫模型的设计与分析[J]. 中国现代教育装备, 2008(4):76-78. [12] 何国正. 分布式智能网络爬虫的设计与实现[D]. 中国科学院大学(工程管理与信息技术学院), 2016. [13] Xia H, Baoguo L I, Management S O, et al. Crawler Algorithms of Dynamic Web Reviews Based on Python[J]. Software Engineering, 2016. [14] 马栋, 王荣, 邱烨,等. 基于Python的站内搜索引擎的设计研究[J]. 2009. [15] Shi Z, Shi M, Lin W. The Implementation of Crawling News Page Based on Incremental Web Crawler[C]// Applied Computing and Information Technology/ Intl Conf on Computational Science/intelligence and Applied Informatics/ Intl Conf on Big Data, Cloud Computing, Data Science Engineering. IEEE, 2017. [16] Sun Y, Zhang J. Accurate Investment Based on Web Crawler in Big Data Era[J]. Journal of Guizhou University, 2017. [17] Pinkerton B. Finding What People Want : Experiences with the WebCrawler[C]// Proc. of the Second International WWW Conference. 1994. [18]尹江, 尹治本, 黄洪. 网络爬虫效率瓶颈的分析与解决方案[J]. 计算机应用, 2008, 28(5):1114-1116. [19] 杨定中, 赵刚, 王泰. 网络爬虫在Web信息搜索与数据挖掘中应用[J]. 计算机工程与设计, 2009, 30(24):5658-5662. [20] 罗楷轩. 简述利用Python网络爬虫实现多下载站软件搜索及下载地址提取[J]. 科学与信息化, 2017(24).
3. 毕业设计(论文)进程安排
2017.12.18- 12.28 下达毕业设计任务,明确课题目标和内容 2018.1.1-1.12 查阅相关资料,编写开题报告 2018.1.12 完成论文开题 2018.2.1-2.28 细化解决方案,完成系统总体设计 2018.3.1-3.31 完成数据库设计,各模块设计 2018.4.1-4.30 程序代码编写,局部模块调试 2018.5.1-5.10 合并调试,系统测试 2018.5.11-5.31 撰写论文,及其他相关资料 2018.6.1 论文定稿,准备论文答辩