基于机器学习的房地产企业信用评级实证研究毕业论文
2020-02-15 20:04:42
摘 要
随着近几年房地产行业热度的上升,房地产企业的信用评级也成为大家关心的问题。为了找出更有效的房地产企业评级方法,本文通过相关性分析后筛选出了十个指标对房地产企业信用评级做研究,采用了BP神经网络,随机森林等方法对房地产企业信用评级建立分类模型。同时采用遗传算法和网格搜索分别对BP神经网络和随机森林的参数进行优化,改进之前的模型结果。再将两种机器学习算法得出的结果、机器学习算法与使用传统统计方法的结果分别作对比。
研究结果表明随机森林算法是运用在房地产企业信用评级中最优的机器学习算法且机器学习算法的结果确实随着参数的优化得到了改进。最终还得出了各指标重要性的比较并对该结果做出合理的分析解释。
本文的特色在于将机器学习算法应用于传统房地产企业信用评级领域,同时将遗传算法用于改进模型的参数,最终达到优化模型的目的。
关键词:房地产企业,信用评级,机器学习,参数优化
Abstract
With the rising popularity of the real estate industry in recent years, the credit rating of real estate companies has become a concern of everyone. In order to find out more effective real estate enterprise rating methods, this paper selects ten indicators to study the credit rating of real estate enterprises through correlation analysis, and adopts BP neural network and random forest method to establish a classification model for real estate enterprise credit rating. At the same time, the genetic algorithm and grid search are used to optimize the parameters of BP neural network and random forest respectively, and the previous model results are improved. The results of the two machine learning algorithms, the machine learning algorithm and the results of the traditional statistical methods are compared separately.
The research results show that the random forest algorithm is the best machine learning algorithm used in real estate enterprise credit rating and the result of machine learning algorithm is indeed improved with the optimization of parameters. Finally, the importance of each indicator is compared and a reasonable analysis and interpretation of the result is made.
The characteristic of this paper is to apply the machine learning algorithm to the field of credit rating of traditional real estate enterprises. At the same time, the genetic algorithm is used to improve the parameters of the model and finally achieve the purpose of optimizing the model.
Key Words: Real estate company, Credit Rating, Machine Learning, Parameter Optimization
目 录
第1章 绪论 1
1.1 选题背景与选题意义 1
1.2 研究方法与研究思路 1
1.3 国内外研究动态 2
第2章 房地产企业信用评级现状问题及指标体系构建 4
2.1 房地产企业信用评级市场现状 4
2.2 房地产企业信用评级目前问题 4
2.3 房地产企业信用评级研究必要性 5
2.4 房地产企业信用评级指标体系的构建与数据处理 5
第3章 基于神经网络的房地产企业信用评级 8
3.1 神经网络算法介绍 8
3.2 基于神经网络的房地产企业信用评级模型建立及实现 9
3.3 基于遗传算法的参数优化 12
3.3.1 遗传算法介绍 12
3.3.2 遗传算法对神经网络进行参数寻优实现 12
第4章 基于随机森林的房地产企业信用评级 19
4.1 随机森林算法介绍 19
4.2 基于随机森林的房地产企业信用评级模型建立及实现 19
4.3 网格搜索对随机森林进行参数寻优实现 21
4.3.1 网格搜索法介绍 21
4.3.2 网格搜索法对随机森林进行参数寻优算法 21
第5章 各方法结果对比 24
5.1 神经网络算法与随机森林算法结果对比 24
5.2 传统统计方法结果对比 24
5.2.1 Fisher线性判别 24
5.2.2 二次判别 25
5.2.3 结果比较 26
5.3 机器学习结果与传统统计方法结果的对比 26
第6章 结论与展望 27
6.1 主要结论 27
6.2 政策建议 28
6.3 研究的不足与展望 29
参考文献 30
致谢 31
第1章 绪论
1.1 选题背景与选题意义
企业的信用评级一直是金融界广泛关注的问题,清晰准确的信用评级系统有利于防范金融市场中的道德风险从而帮助其蓬勃发展。过去评级机构往往采用传统方法对企业进行评级研究,虽然这些方法确实有效,但往往需要做长时间的调研并且深入的研究才能得出结论。随着机器学习领域逐渐兴起,越来越多的学者考虑将这种快速有效的方法运用于企业的信用评级中。机器学习方法的优势在于它对高维数据信息提取的能力强,例如企业信用评级中需要考虑的特征指标就较多。虽然机器学习方法已经广泛运用于该领域,但模型效果却不尽如人意。造成这一现象的原因主要是不同的行业情况不同,如果把他们混在一起进行评级很难达到很好的分类效果。因此本文将着重考察房地产行业的企业,仅对该行业的企业进行信用评级。本文将把这几种机器学习方法均运用于公司债信用评级中并分别进行评价和改进,并与传统统计方法得出的评级结果进行比较,并最终找出最优的一种方法进行评级。
虽然之前有不少学者做过企业信用评级的研究,但绝大多数考虑的是指标的选择和优化,对于方法的研究并不全面和深入,也没有着重于某一具体的行业;因此构建的模型过于宽泛,对具体行业实现的效果也并不好。本文克服了这个问题,主要从方法的角度入手,优化方法本身并对模型的参数做调整,将其具体应用于房地产企业做实证研究,使结果更准确有效。本文的现实意义在于:目前我国的房地产企业信用评级还是主要以人的调研和判断为主,本文将机器学习引入该领域中,以量化方法帮助投资者做判断,也能为评级机构的判断提供理论依据并节省时间,更高效的完成评级过程。
通过以上结论可知当我们将房地产企业信用评级问题看作一个多分类的问题时,机器学习方法在解决这类问题时有良好表现。尤其是随机森林在解决小样本问题上表现优秀。运用机器学习方法减少了企业信用评级中评级人员的主观因素,使评级结果更加准确有效,且大大减少了评级所耗费的时间。
1.2 研究方法与研究思路
首先,本文将查找房地产企业主体信用评级数据,并研究影响信用评级的各个指标。在传统统计方法方面,拟采用分类等方法进行研究,对信用进行评级并与神经网络和随机森林得到的结果作对比。机器学习方法在某种程度上克服了传统统计方法的局限性,可以有效解决非正态,非线性信用评级问题;但机器学习方法有个非常统一的缺陷即容易存在过度拟合问题,且计算复杂度较高可能出现组合爆炸等问题。针对这一问题目前的解决途径是用启发式算法例如模拟退火,遗传算法,蛙跳算法等对参数进行优化。启发式算法的参数优化不仅能解决组合爆炸问题更能解决过度拟合的问题。因此本文在用机器学习算法做房地产企业信用评级时,将采用随机森林、神经网络这两种算法进行研究。为了设定最优参数,达到最佳分类评级效果,本文拟使用遗传算法和网格搜索对这些机器学习算法进行参数寻优,以交叉验证的平均误差作为目标函数。最后将比较各模型优劣,选出最优评级模型,对评级机构进行房地产企业信用评级提供一定参考建议。
1.3 国内外研究动态
近年来,国内外学者对企业信用评级进行了大量研究;从研究角度来讲,主要分为传统方法和机器学习方法两个方面:
(1)信用评级传统分类方法
传统的信用评价方法主要是将评级看成是一个简单的分类问题,常采用的方法有fisher判别,z-score打分法,logistic回归分析,层次分析法等。1968年纽约大学的Edward Altman[1]将多元判别法运用于企业信用评级中,又名z-score打分法,主要是取衡量公司状况的多个指标并计算其贡献程度。2016年,Dimitris Balios等人基于财务数据对企业信用评级进行了一定的改进,做出有序分析[2]。2016年,康为勋提出使用层次分析法对油气行业的企业信用评级进行研究,创造性地从政治法律环境、信用环境和行业环境这三个外部的角度考察企业信用风险,但在层次分析法的分析中,各指标的赋权较为主观[3]。2018年,章善云将模糊动态聚类方法应用到上市公司信用评级中,与传统聚类方法相比具有更高的准确性[4]。2018年,杨瑞将熵权法应用到创业板上市公司主体信用评级中,同时使用综合评价法与K均值聚类进行信用打分与评级,该文使用熵权法对所选取的指标进行赋权,在指标处理上具有一定的创新[5]。
但由于传统的统计模型往往存在一些现实中数据难以满足的假设条件,因此越来越多的学者将机器学习引入信用评级。
(2)机器学习分类方法
2010年,Kim,J.W在企业信用评级问题中,将传统统计方法与人工神经网络模型进行对比,验证了人工神经网络信用评级的优越性,但同时也指出了其过拟合等诸多问题[8]。2009年,张晶晶将支持向量机算法扩充为多分类模型,并对核函数的选取做了一定的测试,但综合来看,核函数的选取仍然具有一定的主观性[9]。2014年,Haoming Zhong等人在前人的基础上,将四类机器学习算法即BP神经网络、极限学习机(ELM)、增量极限学习机(I-ELM)和支持向量机(SVM)应用于真实信用评级金融数据集,对数据结果进行了一系列讨论[10]。2017年,Artem Bequé和Stefan Lessmann将极限学习机(ELM)及其集成方法应用于信用评级问题,通过试验证明ELM的信用评级效果比其他大部分的信用评级模型都要好[11]。2018年,夏国斌提出基于支持向量机算法的集成学习模型,并使用台湾的信用数据验证了集成学习模型的改进效果,但结果显示,改进仍十分有限[12]。在对企业信用评级指标选取的研究中,J. Kittler在1978年首次提出IFS方法进行特征选取[13]。2006年,K. Michalak和 H. Kwasnicka提出MFS方法,基于特征相关性进行分类特征变量的选取[14]。2013年,Petr Hajek和Krzysztof Michalak基于以上方法进行实证研究,并综合使用各种机器学习算法对企业信用进行评级,得到了较好的评级结果[15]。
在众多学者对企业信用评级进行研究的同时,也有很多学者着力于房地产企业信用评级的研究中。2012年,张春伟针对房地产企业情况,调整了因子影响,改进logistic回归模型使其效果更优[6]。2016年赵文睿将聚类分析引入房地产企业信用评级中,但是由于聚类分析方法的局限性,预测效果并不好[7]。2015年,于雯将神经网络及支持向量机引入到房地产企业信用评级的研究中,并对预测的平均准确率的波动作出分析,对预测准确率的分布做拟合[16]。
机器学习方法确实克服了传统统计方法的局限性,可以有效解决非正态,非线性的信用评级问题;但机器学习算法也存在参数优化的问题,即参数的优化可以显著地提高模型的有效性。针对这一问题目前的解决途径是用启发式算法例如遗传算法,蛙跳算法等对参数进行优化,在组合情况少时也可采用网格搜索进行寻优。因此本文将延续这种思路进行进一步的探索并希望能找到一种最优的房地产企业信用评级方法。
第2章 房地产企业信用评级现状问题及指标体系构建
2.1 房地产企业信用评级市场现状
由于近年来我国对房地产行业管控非常严厉,房地产投资的热度也因此有所下降。整个房地产行业的发展速度相较前些年也有所减缓。在目前这种政策紧张的环境下,越来越多的投资者希望得到一个更公允的评级数据从而更自信的在房地产行业进行投资。尤其是规模较小的中小型房地产企业面临着竞争激烈化的市场和项目开发带来的高经营风险的双重压力,为了维持正常的运营,这种中小型房企企图增加金融杠杆,增加借款;这也潜在的增加了债务的违约风险。在房地产金融中,企业的信用等级非常重要;合适的房地产企业信用评级为银行选择贷款对象和额度提供了根据同时也为投资者的投资策略提供了更多的投资信息。具有高信用评级的企业具有高的还款率和还款意愿,因此投资者和借款人会受到更多的保障。而对于信用等级较低的企业,投资者和借款人往往会要求更高的收益或者更低的债券价格以弥补信用风险的增加。
目前大部分银行在房地产企业信用评级方面,主要运用财务指标作为指标体系的主体。因为财务能力的反映主要是从盈利能力,偿债能力,经营能力和发展能力这四种能力综合反映的,这些能力决定了企业能否有足够的资金偿还债务。目前我国通用的评级方法是九级评级法即将企业分成AAA, AA, A, BBB, BB, B, CCC, CC, C这九类,若有稍高或稍低相应等级的,即用 ,-号进行调整。
2.2 房地产企业信用评级目前问题
企业信用评级的标准随行业的不同会发生略微的变化,就房地产行业而言,影响可能相对较大的指标为存货周转率及流动资产周转率,它们主要影响房地产企业应对去库存危机时的风险承受能力。此外,信用评级结果与房地产企业的发展能力及偿付能力对也有比较大的关系。就目前的情况看,目前房地产企业信用评级工作存在以下几个问题:
(1)信用评级市场混乱
在2015年,证监会对全部七家信用评级机构进行检查发现,其中六家的部分评级项目存在九项问题,其中包括信用评级未进行尽职调查,评级指标模糊,严重不尽责等。多头监管是造成这种评级市场监管不严的原因之一。我国信用评级行业的监管主要是由国家发改委,央行,证监会和原保监会构成的。部分企业妄图钻多头监管政策的空子,造成了评级市场的混乱。目前国家为了营造更良好的评级行业环境,已有意向出台一套统一的征信评级体系,以保证企业之间评级的一致性与可比性。
(2)评级手段单一