在线爬虫管理与监控系统文献综述
2020-04-14 16:26:48
1.目的及意义
1.1 设计的目的
随着数据科学的迅速发展,诸如机器学习,人工智能等新兴技术极大地方便了人们的生活。来越多的应用涉及到大数据,而这些大数据的属性、包括数量、速度、多样性等等都是呈现了大数据不断增长的复杂性。从而,大数据的获取和分析在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。
万维网上有着无数的网页,包含着海量的信息。但在很多时候,我们需要大量的获取这样的信息来发掘出这些信息隐藏的价值,我们需要从某些网站,提取出我们感兴趣、有价值的内容。为了获取这样的数据,我们需要一种能自动获取网页内容并可以按照指定规则提取相应内容的程序,这就是爬虫。
在爬虫早已不是什么新鲜事物的现代,对于类型日益复杂的网页信息和越来越多的数据,我们需要一个对多个分布式爬虫进行管理的管理信息系统从而帮助我们对爬虫进行控制,节约我们获取信息的成本,大大提高获取数据的效率。
1.2 设计的意义
在网络信息日益庞杂的今天,爬虫的发展也越来越发达。与此同时,对于爬虫的精细化管理也应当越来越功能完备。基于分布式的爬虫管理系统正是在当前的形势下出现的对网络爬虫进行管理的一个功能完善的平台。作为网络爬虫的管理平台,该系统具有以下意义:
1. 爬虫的运行管理:对于多个爬虫可以进行精细化管理,可以设置定时,定量任务以及增量更新任务。对于不同的爬虫可以采取不同的运行规则。可以随时开始,停止爬虫的运行。
2. 数据的存储管理:对于爬虫抓取到的数据会自动的按照设定的规则进行处理后将清洗过的数据存储到制定的存储位置。
3. 分布式的爬虫管理:多个爬虫可以分布在多个服务器上,在某个爬虫出现故障后不会影响到其他的爬虫任务,并会根据数据是否丢失进行重新爬取并会有警报提示。爬虫的抓取和对数据的处理分开进行,避免数据的丢失,最大化负载均衡。