基于Scrapy的贴吧爬虫系统设计和实现任务书
2020-02-18 17:36:27
1. 毕业设计(论文)主要内容:
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。通用搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南,但是,这些通用性搜索引擎也存在着一定的局限性。为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。
贴吧爬虫系统主要用户是经常浏览我校或者其他贴吧的学生及老师等。通过该系统可以方便对贴吧信息进行检索、收集和整理。本系统开发基于python的爬虫框架scrapy。本毕业设计需要完成如下功能:
1、信息检索:可对贴吧帖子进行关键词等条件检索、按时间等条件排序。
2. 毕业设计(论文)主要任务及要求
1.查阅15篇相关文献(不少于3篇外文文献),并每篇书写200—300字文献摘要(装订成册,带封面);
2.认真填写周记,完成至少1500字开题报告(“设计的目的及意义”至少800汉字;“基本内容和技术方案”至少400汉字;进度安排应尽可能详细;
3.完成5000中文字以上的相关英文专业文献翻译,并装订成册(中英文一起,带封面);
3. 毕业设计(论文)完成任务的计划与安排
(1) 2019/1/19—2019/2/28:确定选题,查阅文献,外文翻译和撰写开题报告;
(2) 2019/3/1—2019/4/30:系统架构、程序设计与开发、系统测试与完善;
(3) 2019/5/1—2019/5/25:撰写及修改毕业论文;
4. 主要参考文献
-
Python基础教程(第3版) Magnus Lie Hetland 人民邮电出版社
-
Python爬虫开发与项目实战 范传辉 机械工业出版社