基于Python的网页数据提取及分析文献综述

2020-06-30 21:21:00

文献综述

（一）研究背景

Python是一种高级编程语言，它可以实现网络爬虫功能。相比于其他的编程语言来说它上手较为简单，但是其代码运行速度相对较慢。Python提供了非常完善的基础代码库，使用python开发时许多功能可以直接使用而不用从头开始编写，因此其开发速度较快，也相比其他编程语言更容易一些^[12]。本课题主要是使用Python实现网络爬虫功能，并对爬取到的数据进行分析处理。

网络爬虫又被叫做网络机器人或者网络蜘蛛，它主要用于网页的数据提取，直接返还给用户网页上的内容而不需要人工浏览网页。相比于人工查找，使用网络爬虫来进行网页内容提取将会大大提高效率。网络爬虫技术分为几类：（1）通用型网络爬虫；（2）聚焦网络爬虫；（3）增量网络爬虫；（4）Deep Web 爬虫^[5,7]。

网络爬虫的架构分为爬虫调度端，爬虫主程序，目标数据三个部分。而主程序又分为Url管理器，网页下载器，网页解析器三个模块构成。当网络爬虫工作时，调度端调度主程序获取目标数据。首先调度端会查询URL管理器中是否有等待爬取的URL，若存在待爬取的URL则调度端将会从管理器中获得一个URL地址，接下来通过下载器获得网页的内容，并将内容发送到解析器中，解析器通过解析网页内容可以获得有价值的数据以及新的URL，然后将URL发送到URL管理器中，再将有价值的数据发送给应用程序。通过不停的循环这一过程，实现网页数据的提取^[5]。

（二）国内外现状

网络是一个迅速发展的信息资源，它非常的巨大。并且很多在网络上的信息都是作为无结构的文本存在的，当进行信息归类的时候将会十分困难。依靠人工只能采用复制粘贴的形式来对数据进行提取归类，这样不仅效率很低而且容易出错，费时费力。当遇到大量数据时，依靠人工可能无法完成^[2]。因此需要一种新的技术来对网页内容进行提取，这便是网络爬虫技术。

1.Python

Python是现在比较流行的一种编程语言，也称胶水语言，诞生于1989年。1991年，第一版正式发行，在2010年TIOBE编程语言排行榜评为当年的年度语言。Python是一种面向对象的免费语言，大型软件公司如百度等都在用它作为项目的基础语言。Scrapy作为Python实现的爬虫库，被广泛的使用^[8]。

2.网络爬虫

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码