武汉市二手楼市数据分析系统的设计与实现毕业论文
2021-11-03 22:42:57
摘 要
本课题所设计的武汉市二手楼市数据分析系统目的在于以数据挖掘技术为基础,采用合适的python爬虫方式和集成学习。通过对链家网上2018年下半年武汉市已成交二手房的数据进行采集,并将采集的数据进行合理的清洗处理,多指标分析2019年下半年武汉市二手楼市热度,预测武汉市二手房成交价,为买家和卖家提供参考。本系统通过筛除虚假信息以及过时信息,运用相关的分析和清洗算法对数据进行处理,得到更规范更准确的结果,有助于提高二手房交易成功率。经过分析,我们了解到2019年下半年武汉市的二手房的成交量实现近十倍增长;平均成交价格也上升十万余元,这说明武汉市的二手房市场依然火热。同时数据也显示,二手房平均成交周期由2018年的64天增长到120天,减价成交比例增加至九成,买卖双方对房屋定价有差异。此时,使用本数据分析系统,有助于买方制定更合适的价格,也使卖方更容易买到心仪的二手房。
关键词:二手楼市;python;数据分析;XGBoost模型
Abstract
The purpose of the Wuhan city second-hand property market data analysis system designed in this subject is to use data mining technology as the basis, and use appropriate python crawling methods and integrated learning. By collecting the data of second-hand houses that have been sold in Wuhan in the second half of 2018, and collecting the data for proper cleaning processing, multi-index analysis of the popularity of second-hand housing market in Wuhan in the second half of 2019 to predict the transaction price of second-hand houses in Wuhan To provide references for buyers and sellers. This system filters out false information and outdated information, and uses relevant analysis and cleaning algorithms to process the data to obtain more standardized and accurate results, which helps improve the success rate of second-hand housing transactions. After analysis, we learned that in the second half of 2019, the transaction volume of second-hand housing in Wuhan achieved a tenfold increase; the average transaction price also rose by more than 100,000 yuan, which shows that the second-hand housing market in Wuhan is still hot. At the same time, the data also shows that the average transaction cycle of second-hand housing has increased from 64 days in 2018 to 120 days, and the proportion of price reduction transactions has increased to 90%. Buyers and sellers have different prices for houses. At this time, the use of this data analysis system helps the buyer to set a more appropriate price, and also makes it easier for the seller to buy the second-hand house that he likes.
Key Words:pre-owned houses; python; data analysis; XGBoost model
目 录
第1章绪论 4
1.1研究背景 4
1.2研究目的与意义 4
1.3国内外研究现状目的与意义 5
1.3.1国内研究现状 5
1.3.2国外研究现状 6
1.4课题研究内容与预期目标 6
1.4.1研究内容 6
1.4.2预期目标 7
1.5论文章节安排 7
第2章 数据挖掘 8
2.1概述 8
2.2数据搜集方式 9
2.3数据说明 9
2.4数据爬取 9
第3章 数据预处理 13
3.1数据清洗 13
3.2数据初探 14
第4章 数据分析 17
4.1 2018下半年二手房成交情况总览 17
4.2 对比2018/2019下半年,二手楼市的热度变化 18
4.3 对比2018/2019下半年楼市,价格变化 20
4.4 2019下半年楼市畅销二手房的特征 21
4.5分析总结 25
第5章 数据建模 26
5.1特征选取 26
5.1.1维度拓展(POI内容获取) 26
5.1.2原数据集字段选取 26
5.1.3合成建模数据集 27
5.2数据预处理 27
5.2.1数据预处理函数构建 27
5.2.2数据预处理并查看 27
5.2.3数据准备 28
5.3Lasso回归模型 29
5.3.1模型建立 29
5.3.2模型预测 29
.3.3模型优缺点 31
5.4随机森林回归模型 31
5.4.1模型建立 31
5.4.2模型性能分析与预测 32
5.4.3模型优缺点 33
5.5 XGBoost模型 33
5.5.1模型建立 33
5.5.2参数调优和模型预测 34
5.5.3模型优缺点 35
5.6 基于XGBoost的集成学习模型 35
5.6.1集成调优 35
5.6.2模型预测 36
5.6.3模型优缺点 37
5.7建模总结 38
第6章 总结与展望 39
6.1研究总结 39
6.2未来展望 39
参考文献 40
致 谢 42
第1章绪论
1.1研究背景
近十年来,我国房地产行业十分繁荣,房价日日攀升。买房是大部分人的刚性需求,所以关注房价的变化对每个人来说都十分重要。由于房价越来越高,想在大城市中买一套新房定居,对很多人来说都是一件难事。于是,人们将目光转移到了相对实惠的二手房上。二手房价格较新房低廉,并且由于近年来房地产行业大量开发楼盘,新建楼盘的位置都相对偏远,不如二手房位于市区,交通方便。所以,二手楼市渐渐成为买房时的重要选择。
但二手房作为经过转卖的房子,它的情况比新房的情况复杂很多。买方需要考虑的因素极多,例如看中的房源是否可靠,房本是否满五年等关键信息都是必不可少的。同时,卖方也需要考虑房屋定价是否合适、能否在预计时间内售出等因素。
因此,如果我们能及时地搜集二手房的数据,分析房价与地理位置、房屋面积、房屋户型等众多因素之间的关系波动,准确地预测房价的变化,就有利于在二手楼市占得先机。
1.2研究目的与意义
在过去,购买和出售二手房往往要依靠于可信的中间人或者中间机构,对房屋市场和房源信息的了解都是从中间机构那得来的,这样就会出现一些由于沟通不好导致的信息缺失或者信息错误,甚至会出现被骗介绍费的情况。而二手房线上交易网站的出现,在一定程度上方便了买卖双方。线上交易网站面向所有人提供房源信息,使买卖双方获取二手房市场信息更透明简洁。
房屋交易网站在为我们寻找合适二手房提供方便的同时,也存在一些问题。比如业内较为靠谱的链家网,其网站上依然存在一些不靠谱的房源。这些房子要么已经卖出,要么房主并不诚意出售的房子,但由于种种原因,房源信息并未被及时撤销,成为了我们讨厌的虚假过时信息。如果不能分辨这类信息,会浪费购房者的时间和精力,也会误导卖房者对二手房的定价,不利于二手房成交。