一款网络爬虫软件的实现及对策研究-
2023-03-08 15:12:14
论文总字数:16076字
摘 要
本课题主要研究网络爬虫的设计方案及其解决应对的流程,在大多数情况下,合理运用数据都是对人来说是利大于弊的,而当其设计的深度达到一些灰色地带的时候,往往又有一定的风险及法律责任。搜索引擎的重要部分就是所要说的网络爬虫,它的主要目标就是把互联网上的网页下载到一个由本地形成的互联网内容的镜像备份上。网络爬虫应用宽度搜索、使用多线程的技术,对URL进行分析、去重等功能,使爬虫具备更强的抓取信息的能力。而网络爬虫也需要符合一些特定要求完成各种需求。本文就是研究网络爬虫的设计以及如何合理的应用网络爬虫的功能。
关键词:网络爬虫;搜索引擎;程序漫游;镜像;宽带搜索;多线程
The Design and Solution of Web Crawler
Abstract
This paper mainly studies the design of web crawler and its solution to the process, in most cases, the rational use of data is more good than harm to people, and when the design depth reaches some gray areas, often have risks and legal responsibility. An important part of the search engine web crawler that is to say, its main goal is to get on the Internet to download a web page by the local formation of the Internet content on the web crawler using mirrored backup. The width of the search, using multi threading technology, analysis of URL weight function, the ability to make the crawler has a stronger grasp of information and. The web crawler may need to meet some specific requirements to complete all kinds of needs. This is the design of web crawler and function application web crawler how reasonable.
Keywords: Web Crawler; Search Engine;Program Roaming; Image Search; Multi- thread
目 录
摘 要 I
Abstract II
第一章 引 言 1
1.1 选题背景 1
1.2 网络爬虫的起源和种类 1
1.2.1 网络爬虫的起源 1
1.2.2 网络爬虫的种类 1
1.3 网络爬虫的发展及前景 4
第二章 网络爬虫原理 6
2.1 网络爬虫的基本结构 6
2.1.1 通用网络爬虫的系统框图 6
2.1.2 通用网络爬虫的爬行策略 6
2.1.3 网络爬虫的体系结构 7
2.2 网络爬虫的工作流程 7
第三章 网络爬虫的设计 8
3.1 网络爬虫的算法 8
3.1.1 数据预处理算法 8
3.1.2 Python 算法 11
第四章 网络爬虫的应用 14
第五章 应对有目的的网络爬虫的方法 15
5.1 隐匿网络传输的信息 15
5.2 隐匿HTML信息 15
第六章 总 结 17
致 谢 18
参考文献 19
第一章 引 言
1.1 选题背景
在这个信息社会时代,信息与数据的交互和共享是发展的必然趋势,而其中的手段也是各种各样,有些可能是企业公司的信息交换,还有的是信息的泄露,或者是通过一些程序从而获得的,也就是此文所要说的网络爬虫技术。爬虫,有着许多其他的称谓比如:蜘蛛,网络机器人,在众多网民群众聚集的地方,更经常被网民称它们为追抓者,网络爬虫的称谓还有很多,接下来是许多不怎么用的称呼:自动索引、模拟程序或者蠕虫,之所以会叫这个,是因为它会像爬虫一样,在挖掘信息的时候对于信息也会蠕动得都要挖掘到处于万维网的信息,故而得名。网络爬虫说的通俗点也就是所谓的数据挖掘。
1.2 网络爬虫的起源和种类
1.2.1 网络爬虫的起源
什么是爬虫?《搜索引擎原理》中是这样说的:爬虫也被网友称为“Wanderers”(漫步者)或者“Robots”(机器人),说它是爬虫,因为它会像爬虫一样“蠕动”地进行数据的爬取及信息的汇总,说它像机器人,因为它能够重复上前乃至上万次的命令,一直到遇到终止条件为止。它的主要目的是负责抓取一些在搜索引擎中的最新并且可以共同访问的网页、图片和文档等资源[1]。这种抓取的过程分一般是如下执行的:爬虫需要事先下载一个网页,网页可能是之前被他人浏览的或者是其他一些网址上的,接着对这些网页中的内容进行深度分析,接着漫游到更多的网页,靠着不同的链接来进行,重复地循环往返下去。
自从世界上第一个爬虫软件的诞生以来,就拉开了网络爬虫的篇章序幕。爬虫能够像一个机器人一样自动地抓取网页的信息。1993年,来自麻省理工学院的学生马休 格雷写出了世界上第一个爬虫程序[1],并以“万维网漫步者”这个看似与爬虫毫无关系的名字来命名。虽然马休的初始目的并不是为了做搜索引擎,但正是这次程序的诞生及其造成的后果,很显著地推动了以后的各种各样搜索引擎发展,也使如今的网络爬虫能够广泛运用到各种需求上。
很多网络爬虫的思路源于漫步者,通过这个软件,人们一步一步地改进到完善爬取功能。1994年7月,米迦勒•莫尔丁将约翰利密特的蜘蛛程序接入到其索引程序中,创建了当时著名的搜索引擎Lycos,这其实才真正目的上就是做搜索引擎。在这之后搜索引擎也越来越多,而爬虫程序也就越写越复杂,其爬行策略越来越多样化,负载也变得更加均衡,抓取规模也越来越大。网络爬虫所涵盖的几乎是整个互联网,甚至包括一些毁掉访问记录的网站也不例外,因为还有“网页快照”功能在等着处理并找出来[1]。
1.2.2 网络爬虫的种类
按照系统结构以及实现的技术来划分网络爬虫网,大致可以归类为下列四种类型:通用型网络爬虫(General Purpose Web Crawler)、聚焦型网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。 实际的网络爬虫系统通常是由几种爬虫技术相结合实现的[1] 。
通用网络爬虫
剩余内容已隐藏,请支付后下载全文,论文总字数:16076字