基于Scrapy的贴吧爬虫系统设计和实现开题报告
2020-02-18 20:05:57
1. 研究目的与意义(文献综述)
虽然不止百度有贴吧,但目前最具影响力的只有百度贴吧,所以我的选题——贴吧爬虫系统是专门针对百度贴吧,以下所说的贴吧都是指百度贴吧。
作为一个经常接触各种线上论坛和社区的大学生,贴吧在很长一段时间里都是我最常去的在线社区之一。贴吧作为一个线上交流平台,它将那些对有相同兴趣爱好的人们聚集在一起,通过发帖评论交流各自的看法认识,分享自己的生活——贴吧是一个闲聊唠嗑的交流平台;也可以交流对各自有用的资源或是发表技术帖,经验帖,攻略帖,互相帮助,更好的工作和学习——贴吧此时可以作为一个技术平台;作为以文字图片为主要表达形式的社区,也有人在贴吧上发表原创小说,无法牟利,只为表达和锻炼自己的文学才华,而且据我的观察,精彩的小说还不算少。或是编出一些段子笑话供大家娱乐,我本人也曾喜欢在贴吧看段子和小说——贴吧又是休闲娱乐的平台。这次选题即为贴吧爬虫系统,有一部分原因便是出于我对贴吧的兴趣,更多的是想要熟悉现今比较流行的python语言和爬虫技术,在本次毕业设计中锻炼自己的学习能力和编程能力,也开阔自己的视野。
贴吧是结合百度搜索引擎建立的,,以下,它的涵盖目录相当广泛,包括社会,地区,生活,教育,娱乐明星,游戏,动漫,小说,体育,企业,可以说,生活中的方方面面都能找到对应的这么一个帖吧。在2015年贴吧开始疯狂商业化变现之前,吧主本身就是贴吧的普通用户,基本上任何合法用户都可以创建属于自己的贴吧,然后聚集起有相同兴趣爱好的网友。它曾经有十分庞大的用户数量,2014年贴吧的活跃用户曾达到2亿之多,如此多的用户产生的的信息量相当庞杂,以至于即使后来的“血友吧事件”,“魏则西事件”发生,使得百度贴吧失信于社会,用户量开始下滑;以及现今的抖音,今日头条,微博等各类社交平台的崛起抢走了贴吧相当一部分的用户,贴吧的用户量依然不可小觑,产生的信息量也依然巨大。这些信息中不乏许多有价值的信息,想要高效的获取这些信息就需要有好的检索方法。通用的搜索引擎检索出来的信息有一定的局限性,它的目标是尽可能大的网络覆盖率,返回的结果通常有大量我们不需要的内容,因此有必要开发出专门针对贴吧的聚焦爬虫,从而更高效迅速的获取我们所需要的信息。
2. 研究的基本内容与方案
基本内容和目标:使用python环境进行开发,采用web应用的形式实现如下功能:
1、信息检索:对贴吧帖子进行检索,可以选择在特定贴吧里检索或是某几个贴吧或是全部贴吧里检索,可以按照关键词检索,可以按照用户名检索。
2、信息整理:信息检索结果的过滤、删除、排序,可以按时间,相关性,回复量排序。
3. 研究计划与安排
(1) 2019/1/19—2019/2/28:确定选题,查阅文献,外文翻译和撰写开题报告;
(2) 2019/3/1—2019/3/7:查阅python开发资料,设计系统架构,搭建项目界面原型;
(3) 2019/3/8—2019/3/20:学习运用scrapy相关知识,搭建爬虫原型,尝试爬取贴吧数据;
4. 参考文献(12篇以上)
-
《python基础教程(第3版)》 magnus lie hetland 人民邮电出版社
-
《python爬虫开发与项目实战》 范传辉 机械工业出版社
-
《python 核心编程》,wesley j. chun
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付