基于机器学习算法的个人借贷信用评估方法研究毕业论文
2021-12-27 21:09:55
论文总字数:17803字
摘 要
随着互联网金融的迅捷发展和大数据时代的到来,网络借贷在这样的背景下随之而来,它为借贷双方提供了一个借贷交易的平台。但是由于数据来源广泛,数据结构多元化,使得投资方必须进一步提高信用风险评估模型的准确性和适应性,从而确保借款人在将来能够按时还款,而机器学习技术恰好能够显著提高信用风险评估的准确性和适应性。本课题研讨基于特征信息和支持向量域共同描述的信用风险评估模型,以尽可能降低不良贷款的可能。
首先,我们经过对收集到的数据集进行预处理,主要方法通过剔除无关变量,然后判断变量之间有无多重共线性,将一些不符合我们期望的数据或者变量剔除,在通过数据规范化处理,将所得的数据规范化,为后面的建模做铺垫。
其次,本文经过数据预处理后,将获取到的借贷人的还款信息和个人基本信息用于建模分析,并用所得模型预测借款人在将来能否按时还款。
本文分别运用了Logistic回归,随机森林和支持向量机三种机器学习算法对用户能否按时还款进行预测,通过最终模型预测的准确性,来对比这三种方法的预测效果的性能。模型分析结果表明:用随机森林算法在预测借贷人能否按时还款的准确性比其他两个算法更好,投资方可以通过利用随机森林算法预测借贷人是否能够按时还款,以此来达到风险最小化。
关键字:Logistic回归,随机森林,支持向量机,风险预测
Reearch on personal credit evaluation method based on machine learning algorithm
Abstract
With the rapid development of internet finance and the advent of the era of big data,internet lending came into being,it provides a trading platform for the borrower and the investor.However,due to the wide data sources and diversified data structures,the investor needs to improve the accuracy and adaptability of credit risk assessment,so as to ensure that the borrower will not default in the future,and machine learning technology can significantly improve the accuracy and adaptability of credit risk assessment.This paper studies the credit risk assessment model based on feature information and support vector domain to reduce the possibility of non-performing loans.
First of all,we preprocess the collected data set,mainly by removing irrelevant variables and judging the multicolinearity between variables,and then we can remove some data or variables that do not meet our expectations.After data normalization,we can normalize the data obtained to pave the way for later modeling.
Secondly,this paper analyzes and models the borrower’s basic information and loan information,and uses the model to predict whether the borrower will default in the future.
In this paper,three machine learning algorithms,logistic regression,random forest and support vector machine,are used to predict whether a used defaults,and the accuracy of the prediction is used to compare the prediction results of these three methods.The empirical analysis show that the random forest algorithm is the best in predicting whether the borrower defaults,and the investor can minimize the risk by using the random forest algorithm to predict whether the borrower defaults.
Key Words: Logistic regression,Random forest,support vector machine,risk prediction
目 录
摘 要 II
Abstract III
目 录 IV
第一章 绪论 1
1.1 课题研究的背景 1
1.2 课题研究的意义 2
1.3 国内研究现状 2
1.4 国外研究现状 4
第二章 相关理论基础 6
2.1 线性回归模型 6
2.2 Logistic回归模型及其估计 6
2.3 随机森林模型 7
2.4 支持向量机模型 8
第三章 数据的收集及其处理 10
3.1 数据来源 10
3.2 数据处理 10
第四章 信用风险预测模型的构建 13
4.1 划分训练集与测试集 13
4.2 Logistic回归模型的建立与预测 13
4.3 随机森林模型的建立与预测 14
4.4 支持向量机模型的建立与预测 15
4.5 模型对比分析 16
第五章 总结与展望 18
5.1 总结 18
5.2 展望 18
参考文献 19
致谢 21
第一章 绪论
由于互联网技术随着时间的推移发展得更加全面,大数据技术也随互联网技术的发展而发展,数据结构更加多元化、数据来源更加广泛,传统的商业银行个人信用评价体系已经不能准确的体现个人的信用状况。首先,传统的个人信用评价方法存在构建模型时使用单一的逻辑回归模型、在处理数据时缺乏对缺失值的处理,容易产生噪音、评价的结果会收到专家的影响,缺乏客观性等诸多问题。而运用机器学习方法来进行个人信用评估,机器学习方法不再单一的运用逻辑回归模型,它可以综合多学科的基础上,自行优化算法,并且在数据处理时,运用随机森林模型补充缺失值,另一个就是机器学习方法使算法受到人为的影响大大降低。再次,传统的商业银行贷款有着审批漫长、放款时间长等问题,而放贷公司通过网络收集整理数据,经过机器学习方法对其个人信用进行评估,再通过其信用评估的高底来决定是否进行放贷,大大降低了审批和复杂的手续等问题。
请支付后下载全文,论文总字数:17803字