基于Scrapy多站爬虫的租房信息存储与数据分析开题报告
2022-01-14 20:53:01
全文总字数:2246字
1. 研究目的与意义及国内外研究现状
近年来由于我国人口总量不断攀升,人们对住房的需求愈演愈烈。为了满足人们对于住房的需求,房屋租赁市场日益壮大。在国内的一线城市如北京、上海、广州,以其丰富的就业资源吸引了全国各地应届毕业生的目光,导致租房市场的需求压力不断增加。同时随着互联网的高速发展,房屋租赁市场的重心逐渐由线下转为线上,极大地方便了人们的生活,越来越多的人通过互联网来查找租房房源。然而为了迎合市场需求,租房软件五花八门,用户需要下载不同的软件去获取更多的房源信息,使得用户无法从宏观上整体把握租房市场的整体状况。因此本文的主要研究目的在于选取几个具有代表性的租房软件,定位南京市,利用scrapy和selenium爬取租房信息,对爬取的租房数据信息进行分析,分析房源分布情况以及房租价格的各个影响因素,从而对整个南京市租房现状有大体的把握,并给出自己的建议。国内外研究现状
一、网络爬虫的发展现状
现如今,在网络爬虫技术方面有大量的开源库和爬虫框架可供选择,如nutch、scrapy等都是比较流行的网路爬虫框架。为了满足不同用户的不同需求,出现了很多爬虫系统。按照实现技术及其系统构成,爬虫技术可以分为以下几类: 1.通用网络爬虫,即全站爬虫。
它是通过一系列预设的初始链接开始,获取网页上的所有链接,根据预设规则,提取链接,进入待爬取队列,进而不断访问网页链接。然后通过html解析技术,获取页面数据,提取所需信息并保存,同时将新获取的连接放在待爬取队列中,直到达到系统预设指定条件为止。
2. 研究的基本内容
本文主要选取具有代表性的房屋租赁平台为研究对象,如:安居客、58同城租房板块、赶集网,以南京市为例。
利用网络爬虫提取出各个平台有用的房源信息,然后对房源信息进行数据处理,建立房源数据库,从而有效对大量房源信息进行数据分析,得到房源价格的影响因素,为人们选择高性价比的租房资源提供依据。
3. 实施方案、进度安排及预期效果
实施方案:
1)1.学习python基础知识、mysql数据库的设计以及各种查询语句的使用;
2)2.学习网络爬虫的技术,并对几种技术进行分析对比,选择适合的技术进行重点分析;
4. 参考文献
[1]唐承佳,林真真,付珊珊.基于python爬虫数据的枣庄市二手房价空间分析[j].枣庄学院学报,2018,35(05):101-105.
[2]余豪士,匡芳君.基于python的反反爬虫技术分析与应用[j].智能计算机与应用,2018,8(04):112-115.
[3]陈猛.基于python的新浪新闻爬虫系统的设计与实现[j].现代信息科技,2018,2(07):111-112.