基于Python的找房租房网站的设计与开发开题报告
2020-04-13 15:21:47
1. 研究目的与意义(文献综述)
1.1 目的及意义
随着互联网的迅速发展,万维网成为大量信息的载体,面对浩如烟海的信息,通过网络爬虫技术高效地获取、处理信息成为一种越来越重要的手段。身处大数据时代之中,信息采集是一项重要的工作,我们经常需要在海量数据的互联网环境中搜集一些特定数据并对其进行分析,如果单纯靠人力进行信息采集,不仅低效繁琐,搜索成本也会提高。此时,可以使用网络爬虫自动采集数据信息,过滤无关数据,将目标数据筛选出来,有效地对信息进行挖掘。可以看出,网络爬虫在互联网中的地位将越来越高,应用需求将越来越大。
网络爬虫技术可以应用于人民日常衣食住行的各个方面。目前,在“住”这个方面,由于城市化进程的不断推进,现代社会大中型城市的人口越来越密集,庞大的流动人口对于房屋租售的需求也日益增加,房屋出租交换率越来越该高,市场上诞生了大量的找房租房网站。不同租户的需求各不相同,找到合适满意的房源是每个租户的当务之急。考虑到出行成本和自身的经济实力,通过房屋中介找房不如线上选择合适的房源。
基于这一现状,意欲设计实现一个在线找房租房网站,通过python技术收集各种房源信息并且提供多样化搜索条件,结合百度地图实现地图查找房源模式,让用户便捷地浏览房源信息,提高效率。实现房屋租售功能模块。
1.2研究现状
万维网上有着无数的网页,包含着海量的信息,无孔不入、森罗万象。我们需要一种能自动获取网页内容并可以按照指定规则提取相应内容的程序,这就是爬虫。理论上来说,任何支持网络通信的语言都是可以写爬虫的,目前来说,大多数爬虫是用后台脚本类语言写的,其中python无疑是用的最多最广的,并且也诞生了很多优秀的库和框架,如scrapy、beautifulsoup、pyquery、mechanize等。对于简单爬虫,瓶颈在于数据分析及提取,而网络效率和语言关系并不大。
爬虫开发的主要问题是性能和反封锁。很多时候,采用高并发高频率抓取数据是可行的,前提是目标站点没有采用任何反爬措施,比如:访问频率限制、防火墙、验证码等。更多时候,有价值的信息,一定伴随着严格的反爬措施,一旦ip被封,不得不维护一个代理ip池来解决这个问题,同时这也带来了代理ip稳定性和速度的问题,这都是无法回避的问题,需要针对具体的情况,采用对应的措施,以最大限度的完成爬虫爬取任务。
2. 研究的基本内容与方案
2.1 基本内容
1)通过阅读相关文献和学习有关资料,学习python语言、网络爬虫技术,了解百度地图api,学习lightswitch的使用方法。
2)运用软件工程的方法开发找房租房网站。
该系统基于b/s模式,用以完成房源数据的管理。该系统实现四大模块:房源浏览、房屋出租、房屋出售、个人中心。
3. 研究计划与安排
1)第1周至第2周:查阅有关的参考资料并完成开题报告;翻译英文资料(不少于5000汉字),并交予指导教师检查。
2)第3周至第6周:熟悉所选用的开发平台,运用所学的软件设计理论,完成整个系统的前期设计工作。
3)第7周至第13周:进行系统的编码、调试、集成、测试工作。其中第10周左右进行毕业设计中期检查,需要提交论文前三章和毕业设计框架。
4. 参考文献(12篇以上)
[1] magnus lie hetland.python基础教程(第2版 修订版)[m].北京:人民邮电出版社,2017.
[2] 韦玮.精通python网络爬虫:核心技术、框架与项目实战[m].北京:机械工业出版社,2017.
[3] 李晓飞.公共地理信息发布平台设计与实现[d].湖北:湖北大学,2016.