基于Python的二手车市场的数据分析毕业论文
2020-04-08 15:02:58
摘 要
本文借助面向对象解释类型的计算机程序设计语言python对二手车市场的数据进行分析、建模、预测,首先针对某拍车网站上二手车拍卖成交的相关记录进行数据抓取,该过程主要利用了python中的第三方库requests库、pandas库;其次对可能对拍卖价格产生影响的因素进行提取并对提取出的数据进行分析清洗,使之成为后续建模需要的数据类型;接着根据数据特征和问题类型选择合适的算法模型,选择合适的参数优化训练模型,并对用随机森林随机梯度下降回归和随机梯度下降回归两种情况下的预测模型进行了比较,所得结果对于二手车拍卖价格的预测具有重要的指导意义。研究结果表明随机森林模型对本数据集能很好的解释,可用于对类似数据集的预测分析以及对各特征重要度的讨论。本文的特色在于提出一种新的预测拍卖二手车价格的预测模型,在某种程度上对于想要出售自己二手车的消费者来说也是一种可以用来对自己爱车进行估值的方法,同时利用本文的随机森林算法模型可以作为一种新型的对二手车保值率的评判标准。
关键词:二手车;网上拍卖价格;随机森林;随机梯度下降回归
Abstract
In this paper, the data of the second-hand car market is analyzed, modeled and predicted with the aid of the computer programming language python of the object oriented interpretation type. First, the data is captured for the related records of the second-hand car auction on the car site. The process mainly uses the third party library requests library and the pandas Library in the python; secondly, it is used in this process. The factors that may affect the price of the auction are extracted and analyzed and cleaned to make it a data type needed for subsequent modeling. Then, the appropriate algorithm model is selected according to the characteristics of the data and the type of the problem, and the appropriate parameter optimization training model is selected, and the random forest random gradient is used. The results are of great guiding significance for the prediction of the second-hand car auction price in two cases.
This paper mainly studies the prediction model of second-hand car price and the factors that affect the auction price.
The results show that the random forest model can explain the data set well, and can be used to predict and analyze similar data sets.
The feature of this paper is to propose a new forecast model for the forecast of second-hand car price, and to some extent, it is also a method for the consumers who want to sell their used cars. At the same time, the model of the random forest algorithm in this paper can be used as a new type of second-hand car. The evaluation criterion of the rate of value preservation.
Key Words:Used car;Online auction price;Random forest;Random gradient descent regression
目录
第1章 绪论 1
1.1 研究背景及意义 1
1.1.1 研究背景 1
1.1.2 研究意义 2
1.2研究现状 3
1.2.1二手车价值评估国内外研究现状 3
1.2.2网上拍卖成交价格影响及价格预测的国内外研究现状 3
1.3研究框架 4
1.3.1研究内容 4
1.3.2技术路线图 5
第2章 数据分析 6
2.1二手车拍卖价格影响因素分析 6
2.2二手车拍卖数据采集 8
2.2.1使用工具 8
2.2.2算法设计 8
2.2.3爬取结果展示 8
2.3二手车拍卖数据处理 10
2.3.1数据分类 10
2.3.2数据清洗 10
2.3.3数据可视化 14
2.3.4数值分析 17
2.4本章小结 20
第3章 预测模型研究设计 21
3.1 系统分析 21
3.1.1基本训练模型方案 21
3.1.2模型效果的测量指标 21
3.1.3开发环境 21
3.2 模型介绍 22
3.2.1随机森林模型 22
3.2.2随机梯度递减回归模型 22
3.3模型训练与评价 23
3.3.1模型训练 23
3.3.2评价预测模型 23
3.4结果分析 25
3.5本章总结 29
第4章 绪论 30
4.1总结 30
4.2 展望 30
参考文献 32
致 谢 33
第1章 绪论
-
- 研究背景及意义
1.1.1 研究背景
2017年,二手车交易量突破1000万以上,早在2015年,二手车就已呈现出势不可挡的气势,高速增长的交易量延续到2016年。目前我国新车与二手车销量比例已由3:1缩减至2.3:1,缩短了与新车近三分之一的交易量距离,到2020年两者销量将会持平。与发达国家相比,我国新旧车交易比处于倒置状态的局面正在得到改善。随着政策的推进与放开,二手车行业结合互联网将开辟新的业务模式,可见我国的二手车市场存在潜在的巨大的发展空间。据汽车市场交易的调查报告来看,一、二线城市车源量集中了全国78%的车源,占据绝对优势,三线及以下城市车源拥有量则仅占22%。但是三线及以下城市二手车消费群体所占比例在全国消费者范围内将近有三分之一,可见实际车源量和需求严重倒挂。从去年3月的三部委联合发函解除限迁到现在为止,已有一年多的时间。截至今年3月底,已有二百多个城市完全解除了对二手车限制迁入的限制,随着越来越多城市加入限迁的大部队,可以感受到二手车的跨区域进行交易的潜力将会得到进一步释放,二手车流通半径也将日趋扩大。 二手车交易量不断创新高,不仅拉动了线下二手车交易的发展,对于二手车电商交易平台来说,也是一次大好机遇。随着电子商务日渐渗透进我们的生活,这些二手车电商平台也实现了近50%的交易增长,渗透率相比前年提升好几个百分点。可以看出未来数年二手车电商平台交易量将继续高速增长,二手车电商的出现让过去二手车信息流通不畅的问题得到改善。 在二手车电商市场中,我们最熟悉的有瓜子二手车直卖网、人人网、优信二手车网上商城,因为这些电商平台终端大多是面向个人消费者,尽管始端有所不同,比如优信二手车主打的就是从经销商处获取的有保障车源,而瓜子直卖网则是面向个人消费者进行收车。近年来又兴起一个新的商业模式,即竞拍模式,主要以车置宝、天天拍车为主要代表。将拍卖引入到二手车电商市场降低交易成本和沟通成本,为行业开辟了高效的二手车流通渠道。其优势在于,可以通过互联网将C端车主与全国二手车经销商信息进行打通,具有高效率,车源上架后可一次性卖向全国多家二手车经销商,其中出价最高者获得购买权,最快一天以内即可卖掉,提升了车商的收车效率和运营效率,同时也解决了个人卖车主不知道卖给谁、怎样才能卖高价的痛点。 因此本文主要主要对以C2B模式运营的天天拍车中的成交数据进行研究,分析其影响因素构成并通过机器学习算法对拍卖成交价格进行预测,构建预测模型。弥补了该领域实证性研究的一片空白的现状,也为买卖双方评估二手车的拍卖价值提供了切实可行的评估新方法。 1.1.2 研究意义 随着国家限迁政策的逐渐放开,异地交易量也随之大幅度增长。随着国家对二手车跨区域流通的态度日渐开放,二手车市场将会迎来一波新的前所未有的发展机遇。通过全国竞拍平台跨区域拍卖,卖家可以将自己的目光的更多的投入到本地以外的地方,而不仅仅局限于牌照所在地;经销商也可以利用全国各区域间的差价,制定合理的调取方案,选择相对来说价格更低的同款车系,使投入产出最大化,以满意的价格收购到心仪的车辆获取更多利润,享受跨区域溢价的实惠。政策可以带动人们对二手车的需求,但每辆二手车都会存在或多或少不一样的车况问题,且交易金额大,交易频率很低。与新车定价不同的在于二手车市场自由度高,有多种条件会影响到二手车的价格,所以对于这种非标准品需要根据真实的情况对车辆进行评价,才能给出合适的卖价。对于卖家来说,当存在卖车需求时,由于缺乏专业的二手车检测评估等专业知识且不清楚二手车市场行情,不知道自己的车在什么价格出售最好,无法对自己车辆价格做出正确评判就容易在交易中处于被动地位,一方面会出现预期的偏差低估了自有车的价值导致贱卖,自身利益受损;另一方面会影响车主卖车的动力,间接导致汽车经销商难以收车;对于买家来说,在不清楚其他买家出价的情况下,如何让给出一个在购车预算范围内的合理价格也是值得考虑的问题。 除此之外,在二手车竞价过程中,该拍卖平台上的车主是看不到竞价方给出的实时价格的。由于车主无法亲自参与竞价过程,最终的竞拍价格只能等待客服人员通知。如果双方意见达成一致,拍卖平台则安排买家签署协议。这意味着买卖双方并不知晓拍卖平台最终报出的价格是否与买家的最终报价相符。 本文针对上述现象中存在的竞拍过程“不透明”,选取国内最大的二手车线上拍卖平台天天拍车作为研究对象,根据天天拍车网页上所提供的车辆以及成交信息进行爬取采集,对其中拍卖成交价格的影响因素进行分析,并建立模型预测可能的成交价格,从而帮助买卖双方更容易对二手车做出理性估价,促进交易的进行,缩短交易周期,一定程度上解决车辆拍卖过程中价格“不透明”的现状。 1.2研究现状 1.2.1二手车价值评估国内外研究现状 国内学者针对二手车具体车况,大多数采用重置成本法进行估值,但是在重置成本和成新率的具体计算方法上会存在不同。还有小部分学者从市场法角度,如信息不对称、资金时间价值等评估二手车价值。由于本文主要使用机器学习算法对二手车价值进行评估,故整理归纳使用该方法进行二手车价值评估的文献如下所示。 谢杨,温华等人结合二手车评估师的经验,选取二手车的上牌时间、车程、牌照所属地区等作为自变量,保值率作为因变量建立模型,利用机器学习中的多元回归等算法对二手车价格进行评估并取得了较好的效果 杨波选取15个与二手车相关的原始指标,使用SPSS软件对其进行数据预处理,划分成三大类反映不同信息类别的公因子。使用平均影响值对各影响因子进行筛选,构建和训练按照误差逆向传播算法训练的多层前馈神经网络模型,对比其他算法证明了该模型在二手车评估定价问题上拟合度更为理想。 曹静娴针对二手车鉴定评估中可能出现的欺骗消费者的现象,利用决策树、Logit回归、神经网络三种数据挖掘技术对二手车性能的影响因素给出了定量解释。 侯佳男提出二手车的拍卖定价会受到两方面影响,但由于网络拍卖的特殊性,最终成交价会存在偏差,而偏差的存在又会反作用于拍卖定价。内部因素包括车辆信息、性能、综合情况,如使用年限、行驶里程、技术性能、外观、底盘、品牌、维护等;外部因素包括车辆价格浮动、成交量变化、政府政策导向等[1] 。 国外二手车市场相对中国来说发展更早也更加成熟完善,如美国在二手车评估方法上有一套完整的测评系统且可以查到该车的所有记录,比如有相关网站可以查找车辆是否存在事故记录。二手车买方可要求对二手车进行全面机械检查。检验人员会出具详备的书面报告,指出车辆症结与缺陷,用物超所值的数据说服买方对二手车进行修缮,从而帮助买方独立自主地了解真实车况[2] 。 1.2.2网上拍卖成交价格影响及价格预测的国内外研究现状 何州杉月对网上拍卖成交价格得到相较原始的函数型K近邻法更为精确的预测。预测时采用改进后的K近邻法,以所有已知拍卖到待预测拍卖之间距离的倒数作为权重,对价格增量做加权平均[3]。 刘洋,冯玉强等人利用决策树和Bagging算法对淘宝网在线拍卖交易数据进行建模,发现可以通过预测的出价次数间接对成交价格进行预测,该预测模型在训练时间仅为数秒 ,可用于建立卖时在线拍卖成交价格预测[4] 。 严广乐等人通过对eBay线上拍卖数据的研究,结合遗传算法与K-最近邻算法,将最优权重加入相似度计算以决定最近邻,从而满足相关属性特征对成交价格的影响程度信息的需要,结果证明该模型可以有效找出富含信息的特征变量,提高了价格的预测精度[3] 。 黄丹通过多元线性回归分析,得到拍卖价格的主要影响因素以及各因素与拍卖价格相关性的大小,并利用支持向量机分类建立拍卖价格预测模型[5] 。 李雪峰,刘鲁等人在拍卖动态变化的环境中提出对价格的预测模型,对属性是动态变化的,解决了不能直接运用机器学习算法对最终成交价格进行预测[6] 。 Lucking-Reiley等通过对ebay电子商务平台上收藏币的拍卖情况进行研究,发现对最终拍卖价格产生影响的因素包含卖家信用、评级、起拍价、保留价格和拍卖持续时间长度。其中,与传统印象中设置保留价格会抑制拍卖成交价格不同,提出保留价格能对成交价格产生正面影响,起到隐形提高拍卖价格的作用[5]。 Wood也是对收藏币拍卖这一对象进行数据分析,与前者不同的地方在于,除了卖家信用和拍卖时长等因素,他还总结出另两个显著影响拍卖结果的因素,分别为拍卖时间段是否发生在周末和图片的吸引程度。 Craig则是以一段时期内iphone手机的拍卖数据作为研究对象,通过实证分析发现在选取的众多等对成交价格有影响的因素中,起最重要影响因素的是拍卖方的信誉水平,大多数信誉不高的卖家成交价也不会太高。 1.3研究框架 1.3.1研究内容 第一章为绪论部分。这一部分主要介绍本文的研究背景、研究意义、国内外研究现状概况、研究内容及技术线路图、研究方法和本文主要的创新点。 第二章为数据分析。这一部分主要主要分析了影响二手车成交价格的影响因素,运用python爬虫程序对拍卖二手车线上网站的数据进行抓取,采集到车龄、里程、成交年月约20个属性,对数据进行清洗处理,为后续训练预测模型奠定基础。 第三章为模型研究。本章主要研究了随机森林模型和随机梯度下降模型这两类可以用于解决回归问题的算法模型,并确定基本训练模型的方案,根据各个算法的特征设计参数组合,运用网格搜索来调参让程序自动化进行最优配置的选择。最终训练出的随机森林预测模型能很大程度上解释数据集。最后对模型给出的结果进行影响因素重要度的分析,采用图表的形式表达数据分析的结果,对二手车市场给出了有意义的结论和建议。 第四章为结论与展望。这一部分总结了本文的一些主要研究结论,并指出本文研究的不足之处和进一步的研究展望。
您需要先支付 80元 才能查看全部内容!立即支付