基于Python的网络爬虫系统的设计与实现文献综述
2020-06-23 20:43:46
一、系统设计的背景与意义 网络爬虫是一个自动获取网页的程序,它为搜索引擎从网络上下载网页,是搜索引擎的关键组成部分。
他是一种按照一定的规则,自动的抓取网络信息的程序或者脚本。
传统的网络爬虫是从一个或者若干个初始的URL开始,获得初始网页上的URL,在获取网页的过程中,不断的从当前页面上获得新的URL放入队列中,直到满足一定的条件之后便会停止。
在互联网发展初期,网站相对较少,信息查找比较容易。
随着互联网的迅速发展,网络中涌入了大量信息,使得检索所有新出现的网页变得越来越困难,为了更加快速高效地检索信息,网络爬虫技术开始出现。
基于网络爬虫的搜索引擎研究与实现,在当今网络中已非常普及。
目前比较流行的典型的搜索引擎代表有Google,Yahoo,baidu等。
通用性搜索引擎存在着一定的局限性。
例如:在不同环境下具有不同的检索目的和需求,其所返回的结果可能会包含大量用户不关心的页面的信息,以及有限的搜索引擎资源与无限的网络数据资源之间的矛盾将会进一步的加深,随着数据形式的不断发展,大量不同数据格式数据出现,将会使得通用搜索引擎对这些信息含量密集且具有一定结构的数据无能为力,不能很好的发现和获取,而且由于其通用搜索引擎大多是提供对关键字的检索,那么就可能难以支持根据语义信息提出的查询。
为了解决传统搜索引擎的局限性,设计一个更精确,更方便快捷的网络爬虫是非常有必要的。