基于scrapy的特定主题爬取与展示系统的设计与实现文献综述
2020-06-02 19:50:48
一、 本课题研究与开发的背景与目的及意义
1.1 本课题研究开发的背景
随着Intemet的飞速发展,互联网的信息大爆炸给人们带来信息过载的问题,各种资讯的发布方式已经从传统媒体逐渐的转移到互联网上。人们通过互联网交流兴趣爱好、分享读书感受等交流的需求在急剧的增加,豆瓣网(https://www.douban.com/)、百度读书(http://yuedu.baidu.com/)、亚马逊(https://www.amazon.cn/)等网站已经成为人们交流兴趣爱好的重要地方。在此背景下,确定了在研究Scrapy等主流爬虫框架的基础之上开发一个特定主题爬取与展示系统,通过定制化的爬虫实时抓取来快速的聚合互联网上各个站点的特定主题内容并对其加以处理,以使得人们更加高效、全面的获取感兴趣的资讯。
目前,爬虫的需求呈爆炸式增长的趋势,这是当前各种互联网创新和大数据时代的新常态。火车头和八爪鱼等团队看到了这一点,并率先开发了相对完备的爬虫产品,很多用户都在使用,但是更多的用户希望直接把爬虫抓取任务外包出去,因为他们不懂技术,工具的使用需要逾越技术的鸿沟,大部分用户并没有这个逾越鸿沟的打算。大数据时代,对大数据的分析应当成为一个行业,数据拥有者应该开放数据的分析接口,让数据的价值释放,而爬虫开发者,很多时候是数据分析者(最起码是个数据清洗和筛选者)。他们蒙上了一层神秘面纱,带着一丝黑客气息,法律应当给他们更大的生存空间,让这个有价值的行业创造更大的价值。
1.2 本课题研究开发的目的
本课题的主要目的是设计面向主题的网络爬虫程序与展示系统,要考虑到网络爬虫的各种需求、网络爬虫主体网站的特性、对URL进行构造。网络爬虫使用scrapy实现多线程,让爬虫具备更强大的抓取能力和灵活性。网络爬虫要实现对特定主题的爬取。网络爬虫还要完成信息提取任务,对于抓取回来的网页提取出图书、音乐、电影相关信息等。对网络爬虫的网络设置连接及读取时间,避免无限制的等待。通过云标签、图表等对处理后的数据进行可视化展示。研究网络爬虫的原理并实现爬虫的相关功能以及数据的展示。
1.3 本课题研究开发的意义
互联网是一个庞大的非结构化的数据库,将数据有效地检索并组织呈现出来有着巨大的应用前景。人们面临的问题从原来的信息不足到现在的信息过度。搜索引擎作为一个辅助人们检索信息的工具,虽然Google、百度等搜索引擎满足了人们部分的需求,而直接使用搜索有很多无关内容出现,关联度不够,这些通用性搜索引擎也存在着一定的局限性,对于某些方面的需求仍然显得不足。不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页,如某些用户为了了解某本数据的信息,可能需要前往豆瓣读书、亚马逊书城、百度读书等很多网站切换浏览这样十分繁琐且会出现许多用户不需要的信息。为了解决这个问题,所以拟开发一个特定主题爬取与展示系统。在信息相关度、分析与界面显示方面做到提升。
二、系统要实现的功能
该特定主题爬取与展示系统使用Python语言开发,包括前台和后台两大部分:后台包括爬虫及页面处理程序,前台包括网页展示等功能。