基于数据挖掘的个人信用风险评估研究毕业论文
2022-01-08 22:15:11
论文总字数:26649字
摘 要
商业银行与金融机构的客户产生的各种交易、储蓄、信用历史等数据非常庞大,利用这些数据从这些个体用户中甄别出可能会违约的用户从而减少损失非常关键,但是随着社会的进步,越来越多的数据影响着商业银行与金融机构对违约客户的辨别,因此,对商业银行与金融机构来说,如何正确地对客户进行个人信用风险评估是他们亟待解决的难题。本文将研究如何利用数据挖掘的相关技术对个人信用风险进行评估。
首先,从UCI公开数据集网站上选取德国银行个人信贷数据集并且下载,然后对数据集进行预处理操作,包括数据的离散化处理以及数据的缺失值跟异常值的填补与剔除操作等,处理后的数据集对模型的准确率有显著的提升。
然后,利用随机森林算法对预处理后的原始数据集进行特征选择。首先介绍随机森林算法(Random Forest)的原理,而后使用随机森林算法对数据集进行特征选择,得到各个特征的重要度的排序,最后将这些特征根据特征重要度排序逐一组合形成相应的特征子集,将每一个特征子集输入分类模型,每个特征子集进行10次实验,观察其平均准确率的变化,得到最优特征子集,实验表明,特征选择之后的准确率比特征选择前提高了1%。
最后,利用最优特征子集建立XGBoost模型对个人信用风险进行评估。通过网格搜索(GridSearch)对XGBoost模型进行参数优化,利用5折交叉验证(Cross-Validation,CV)求出模型的平均准确率,实验数据表明,在处理个人信用风险这一分类问题上,优化后的RF XGBoost模型比决策树、逻辑回归、支持向量机、未特征选择的XGBoost模型表现要优秀,在准确率上分别提高了12.2%、5%、16.2%、3.9%,更加有利于个人信用风险的评估。
关键词:信用风险评估;数据预处理;随机森林;特征选择;XGBoost;参数调优
Research on Personal Credit Risk Evaluation Based on RF-XGBoost
ABSTRACT
The data of various transactions, savings, credit history and other data generated by customers in commercial banks and financial institutions are very large. It is very important to use these data to identify users who may default from these individual users, so as to reduce losses. However, with the progress of society, more and more data affect the identification of default customers by commercial banks and financial institutions. Therefore, it is very important to use these data to identify those users who may default for banks and financial institutions, how to correctly evaluate the personal credit risk of customers is a problem they need to solve. This paper will study how to evaluate the personal credit risk through the related algorithms of data mining.
Firstly, the personal credit data set of German bank is selected from the UCI public data set website and downloaded, and then the data set is preprocessed, including data discretization, data missing value and abnormal value filling and removing, etc. the processed data set significantly improves the accuracy of the model.
Then, the random forest algorithm is used to select the features of the preprocessed original data set. Firstly, random forest algorithm (random forest algorithm) is introduced According to the principle of forest), we use the random forest algorithm to select the features of the data set and get the ranking of the importance of each feature. Finally, we combine these features according to the ranking of the importance of the features one by one to form the corresponding feature subsets, and input each feature subset into the classification model. Each feature subset is tested for 10 times to observe the change of its average accuracy and get the optimal result Experimental results show that the accuracy of feature selection is 1% higher than that of feature selection.
Finally, the XGBoost model is established by using the best feature subset to evaluate the personal credit risk. The parameters of XGBoost model are optimized by gridsearch, and the average accuracy of the model is calculated by cross validation (CV). The experimental data shows that the optimized RF XGBoost model performs better than decision tree, logical regression, support vector machine and non feature selection XGBoost model in dealing with the classification problem of personal credit risk In terms of accuracy, it has increased by 12.2%, 5%, 16.2% and 3.9% respectively, which is more conducive to the assessment of personal credit risk.
KEYWORDS: Credit risk assessment; Data preprocessing; Random Forest; Feature selection; XGBoost; Parameter optimization
目 录
摘 要 I
ABSTRACT II
第一章 绪论 1
1.1 研究背景以及意义 1
1.2 研究现状综述 2
1.2.1 指标体系研究现状 2
1.2.2 模型评估体系研究现状 3
1.3 存在问题及解决思路 5
1.4 研究内容与工作流程 6
1.4.1 论文研究内容 6
1.4.2 工作流程 6
1.5 本文组织结构 7
第二章 数据预处理 8
2.1 数据预处理描述 8
2.1.1 缺失值的处理 8
2.1.2 数据离散化 8
2.2 数据来源和数据预处理 8
2.2.1 数据的获取 8
2.2.2 数据预处理 12
2.3 本章小结 13
第三章 基于随机森林算法的数据特征选择 14
3.1 特征选择方法概述 14
3.2 随机森林算法 14
3.2.1 决策树 14
3.2.2 Bagging技术 16
3.2.3 随机森林原理 17
3.2.4 OOB误差估计 18
3.2.5 随机森林特征选择 18
3.3 基于随机森林算法的特征选择 19
3.4 本章小结 20
第四章 基于XGBoost算法的评估模型研究 21
4.1 Boosting算法 21
4.2 XGBoost算法理论 21
4.3 模型性能评价指标 23
4.3.1 混淆矩阵 23
4.3.2 ROC曲线以及AUC值 24
4.4 XGBoost参数寻优 24
4.5 基于XGBoost模型的实验分析 26
4.6 本章小结 27
第五章 总结与展望 28
5.1 工作总结 28
5.2 系统评价 28
5.3 工作展望 29
参考文献 30
致 谢 33
附 录 34
第一章 绪论
1.1 研究背景以及意义
商业银行与金融机构对用户进行个人信用风险评估的过程就是对本人以及其家庭的信用历史的评估过程。商业银行和金融机构作为国家经济的重要组成部分,他们高效稳定的发展,就代表着一个国家的经济健康发展,但是商业银行和金融机构作为金融行业的代表,他们在经营过程中往往还面对着巨大的风险,这时可以利用相关技术系统性地制定个人风险评估模型,对客户进行个人风险评估,从而实行风险管理[1]。2006年,《巴塞尔新资本协议》中提出了银行业面对的八个风险,分别为市场、操作、流动性、利率、国家转移、声誉、法律以及信用风险[2],王海燕指出,信用风险占商业银行与金融机构八类风险主体的百分之六十[3],由此可知,商业银行与金融机构做好个人信用风险评估很有必要。对于商业银行与金融机构来说,日常交易的数据量足够大,并且由于交易时可能存在信息不完善,会出现借贷人违约的情况,给自身带来了很多不必要的损失,做好个人信用风险评估工作,是商业银行与金融机构能够健康持续发展下去的一个重要原因。以往的个人信用评估方法效率不高,并且主观情绪会影响决策结果。随着科技的快速发展,利用数据挖掘技术来处理各行各业产生的数据已经成为了一种趋势。数据挖掘技术就是利用各种不同的算法从随机、不完整、有干扰的巨大的样本数据中,找到隐藏在其中的不容易被人发现的对于我们认识有益的方法。商业银行与金融机构可利用数据挖掘技术对海量的信用数据进行分析,建立一个准确率高的个人信用风险评估模型,降低信用风险带来的影响。
请支付后下载全文,论文总字数:26649字