基于数据挖掘的信用风险预测模型设计文献综述
2020-04-29 15:18:01
1.1 设计的目的和意义
用户画像是信贷用户与信贷相关度较高的信息,在当前金融领域中常对该数据进行数据挖掘,建立模型来做信用风险分析。而信用风险分析使用的算法有很多,根据现有的资料,可以看出决策树算法和神经网络算法在该领域使用广泛。对于离散且数据集少的样本可能偏向于决策树建模,对于连续且数据集多的样本可能偏向于神经网络建模。本设计的目的是使用决策树和神经网络这两种常用数据挖掘算法来判断信用风险。由于两种算法各有优势,设计将通过融合两种的优势来得到更准确的信用风险预测结果。
决策树的的典型作用是按特征对数据进行分类来找到最优的分类方法,得到具有可读性的描述,帮助人来分析数据,找到数据之间隐藏的关系,对数据挖据工作有十分重要的意义。而典型的神经网络算法是通过建立类似人脑的机制,对数据进行特征表示,不仅能处理离散数据,也能处理连续数据,其优势相比于决策树算法体现在处理大量数据上。其特征提取能实现图像识别、语音识别、信用分析等功能,对于数据挖掘同样有十分重要的意义。本设计通过融合两种数据挖掘算法来优化信用风险分析,对于信用风险分析准确性提高有一定的意义。
1.2 国内外研究现状和实现功能
本设计用到的算法是由机器学习或机器学习的拓展领域中选择出来的,根据以往对于用户画像和特征的分析,分析信用风险可用的算法包括但不限于决策树和神经网络算法,而这两种算法也分别有着自己的优势,对于数据挖掘有重要的意义。数据挖掘工作能提升数据的价值,优化人对信息的认知,而决策树和神经网络算法为数据挖掘提供了可行的方式,有着不同的优势。本设计主要采用决策树和神经网络算法,也是根据业务情景选择了比较适合的技术方案。
信用风险分析目前应用较广,在农村和小城镇地区,银行信用风险的预警常使用决策树算法,通过对影响风险的重要因素进行学习建模来实现风险分析预警,类似的使用情景在国内外均十分常见,这也是选择决策树作为本设计使用算法之一的原因。同样,神经网络在风险分析领域使用也十分广泛。简单的BP神经网络算法在中小型银行和企业,各类小额贷款以及各类个人风险评估中使用广泛[2-6],其他的神经网络算法也在风险分析领域发挥各自的优势[7-8],用于风险预测。通过神经网络模型学习已有信贷数据并优化模型,对未评级数据进行分类。两种算法在处理的数据量不同、数据类型不同时发挥不同的优势,目前考虑结合两者的优点,实现算法融合用于信用风险预测。这种算法融合的风险分析在各大企业也有着广泛的应用。
数据挖掘和大数据、机器学习分不开,数据挖掘的技术方案也基本上是从这些相关领域发展出来的。包括目前了解的决策树Id3、C4.5[9-10]、C5.0的算法、神经网络的BP神经网络、RBF神经网络[11]、感知神经网络、线性神经网络、自组织神经网络、反馈神经网络等模型,基本上都是在国外产生并被国内技术工作者所知道的。就本设计来说,用现有的技术方案解决并不是问题所在,本设计要做的信用风险的用户画像和特征分析是完全可以通过现有技术来做的。从搜集的资料中了解到,目前大部分的技术应用案例都是在基础算法的基础上进行了优化和改进,也有部分商业情景使用的算法并没有完全公开(例如商业使用的C5.0的实现案例在网络上十分少见)。
在本设计中,决策树算法的优势包括原理简单,不涉及过于专业的知识,准确率能达到基本要求,对于小批量数据(一般认为小于10亿)的处理十分可靠,并且有多种优化分类的手段[12]。决策树的概念于上世纪在国外形成,对金融领域产生了重要影响,后续传到国内,作为数据挖掘的重要算法被广泛使用,例如分析挖掘信贷数据来判断风险等。具体应用很多,这里举例说明。例如在金融相关领域,决策树常用于风险分析,例如根据用户画像和特征分析信用风险。对于决策树而言,用户画像即用户的与业务相关的基本特征作为feature,而信用风险可分为几个级别作为决策树最终要分类得到的class,决策树对已有数据进行学习,找到最佳分类方式,形成类似if then结构的二叉树,这就是决策树。在Python中决策树的形式为字典,字典分奇数偶数层key值对应着feature名称和feature的不同值,若字典某一key的value不再为字典,该value值即为最后分类出的class,对于新数据的判断需要遍历决策树直到找到对应的class,可以通过测试数据集的结果和实际结果对比来得到决策树的准确度。最后实现在现实情况下通过已经形成的决策树模型对信用风险进行判断。再例如银行电话行销行业,将客户的相关信息作为feature,而用户是否成为目标客户作为class分类(这里可能过于简化,只是为了举例),通过决策树建算法学习用户特征与成为目标客户的关系,形成if then结构的二叉树模型,通过这个模型,对新的用户进行预测,实现精准判断目标群体。
神经网络算法能实现与决策树算法类似的功能,但其主要优势体现在处理大量数据(一般认为大于等于10亿)上,目前国内外搜索引擎如百度、谷歌等都采用了神经网络算法来优化数据分析挖掘能力,它在信用风险评估中同样能发挥其优势。神经网络一般结合大数据使用,其在风控领域的应用在1990年被Odomamp;Sharda提出[1],将神经网络模型引入商业银行信用风险评估领域,利用美国商业银行的各企业财务指标数据作为学习数据,使用神经网络算法进行风险预测并取得了较好的效果。神经网络算法在金融领域一般用于处理大数据,在淘宝、京东这类每日数据量按Tb量级来算的企业十分常用,毫无疑问,他们对于信用风险分析的需求是很大的。