基于Python的网页数据提取及分析文献综述
2020-06-30 21:21:00
文 献 综 述
(一)研究背景
Python是一种高级编程语言,它可以实现网络爬虫功能。相比于其他的编程语言来说它上手较为简单,但是其代码运行速度相对较慢。Python提供了非常完善的基础代码库,使用python开发时许多功能可以直接使用而不用从头开始编写,因此其开发速度较快,也相比其他编程语言更容易一些[12]。本课题主要是使用Python实现网络爬虫功能,并对爬取到的数据进行分析处理。
网络爬虫又被叫做网络机器人或者网络蜘蛛,它主要用于网页的数据提取,直接返还给用户网页上的内容而不需要人工浏览网页。相比于人工查找,使用网络爬虫来进行网页内容提取将会大大提高效率。网络爬虫技术分为几类:(1)通用型网络爬虫;(2)聚焦网络爬虫;(3)增量网络爬虫;(4)Deep Web 爬虫[5,7]。
网络爬虫的架构分为爬虫调度端,爬虫主程序,目标数据三个部分。而主程序又分为Url管理器,网页下载器,网页解析器三个模块构成。当网络爬虫工作时,调度端调度主程序获取目标数据。首先调度端会查询URL管理器中是否有等待爬取的URL,若存在待爬取的URL则调度端将会从管理器中获得一个URL地址,接下来通过下载器获得网页的内容,并将内容发送到解析器中,解析器通过解析网页内容可以获得有价值的数据以及新的URL,然后将URL发送到URL管理器中,再将有价值的数据发送给应用程序。通过不停的循环这一过程,实现网页数据的提取[5]。
(二)国内外现状
网络是一个迅速发展的信息资源,它非常的巨大。并且很多在网络上的信息都是作为无结构的文本存在的,当进行信息归类的时候将会十分困难。依靠人工只能采用复制粘贴的形式来对数据进行提取归类,这样不仅效率很低而且容易出错,费时费力。当遇到大量数据时,依靠人工可能无法完成[2]。因此需要一种新的技术来对网页内容进行提取,这便是网络爬虫技术。
1.Python
Python是现在比较流行的一种编程语言,也称胶水语言,诞生于1989年。1991年,第一版正式发行,在2010年TIOBE编程语言排行榜评为当年的年度语言。Python是一种面向对象的免费语言,大型软件公司如百度等都在用它作为项目的基础语言。Scrapy作为Python实现的爬虫库,被广泛的使用[8]。
2.网络爬虫