基于XGBoost的商业银行识别小微企业信贷欺诈画像研究毕业论文
2021-10-21 17:19:02
摘 要
小微企业融资困局一直是金融服务实体经济的难点与痛点,而相关信贷欺诈现象也严峻而不容忽视,部分资金链紧张或动机不良的小微企业利用虚增流水、虚假用途等多种欺诈手段骗取商业银行贷款,信贷欺诈案件往往影响恶劣、危害重大。一方面,欺诈因素提升了小微企业信贷支持专项政策的落实难度;另一方面,欺诈滋生的小微企业不良贷款导致商业银行遭受资金与声誉的双重损失。有效识别并防范小微企业信贷欺诈,已成为商业银行亟需解决并不断深化的重要问题。
本文首先梳理了小微企业信贷欺诈与银行反欺诈的概念与理论,分析了商业银行识别小微企业信贷欺诈的工作现状,并指出其在欺诈样本、识别指标及模型应用三方面的问题;其次,构建了识别小微企业信贷欺诈的企业画像总体框架,设计递进式画像标签层级体系;然后,提出基于机器学习XGBoost模型生成小微企业信贷欺诈评级标签,以定量评估其信贷欺诈程度;最后就银行有效防范欺诈给出对策建议,一是全面构建小微企业信贷欺诈表象信息库,二是基于风险数据集市为信贷欺诈打上精准画像标签,三是推进集成学习XGBoost模型的信贷欺诈评级应用。
关键词:XGBoost模型;商业银行;小微企业信贷欺诈画像
Abstract
The financing troubles of small and micro businesses have been pain points for financial services in the real economy for a long time, and the accompanying credit fraud phenomenon is severe and cannot be ignored. Some small and micro enterprises with tight capital chains or bad motives defraud commercial banks of loans by various fraudulent means such as virtual increasing flow and fake uses, and credit fraud cases often have bad impact and great harm. On the one hand, fraud factors can increase the difficulty of implementing the special policy of credit support for small and micro enterprises; on the other hand, commercial banks may suffer double losses of capital and reputation due to the non-performing loans of small and micro enterprises caused by fraud. To effectively detect and prevent credit fraud of these enterprises has become an essential challenge that commercial banks need to tackle and deepen.
Firstly, this paper combs the concepts and theories of credit fraud and anti-fraud, discusses the current situation of banks in identifying credit fraud of these enterprises, and points out their problems in three aspects: fraud sample, identification index and model application; secondly, it constructs the overall framework of enterprise portrait to identify credit fraud of these enterprises, and designs the progressive level System of portrait labels; then, based on the xgboost model of machine learning, the credit fraud rating label is generated to quantitatively evaluate the degree of credit fraud of these enterprises; finally, countermeasures and suggestions are put forward for banks to effectively avoid credit fraud of small and micro enterprises. One is to comprehensively build the database of credit fraud forms of these enterprises, two is to accurately label credit fraud based on risk data mart, and three is to apply ensemble learning models such as xgboost to credit fraud rating.
Key Words:XGBoost model;commercial bank;a portrait of credit fraud in small and micro enterprises
目 录
第1章 绪论 1
1.1 研究背景及意义 1
1.1.1 研究背景 1
1.1.2 研究意义 2
1.2 研究内容与方法 2
1.2.1 研究内容 2
1.2.2 研究方法 4
1.3 国内外研究现状 4
1.3.1 小微企业信贷的研究 4
1.3.2 企业信贷欺诈的研究 5
1.3.3 商业银行识别小微企业信贷欺诈现状及问题的研究 6
1.3.4 商业银行信贷反欺诈手段与模型的研究 6
1.3.5 企业信贷欺诈画像的研究 8
1.3.6 XGBoost模型在反欺诈领域的研究 9
第2章 相关概念与理论基础 11
2.1 小微企业信贷欺诈相关理论分析 11
2.1.1 小微企业信贷欺诈的定义 11
2.1.2 小微企业信贷欺诈的动因 11
2.1.3 小微企业信贷欺诈的特征 12
2.1.4 小微企业信贷欺诈的常见手段 13
2.2 商业银行识别企业信贷欺诈的原则与方法 13
2.2.1 商业银行识别企业信贷欺诈的原则 13
2.2.2 商业银行识别企业信贷欺诈的方法 14
2.2.3 商业银行识别企业信贷欺诈的方法比较 15
2.3 企业信贷欺诈画像 16
2.3.1 企业信贷欺诈画像的概念 16
2.3.2 企业信贷欺诈画像的构建步骤 16
2.3.3 企业信贷欺诈画像的维度分解 17
2.4 XGBoost模型 18
2.4.1 XGBoost模型原理 18
2.4.2 XGBoost模型优势 19
2.4.3 XGBoost模型适用条件 19
第3章 商业银行识别小微企业信贷欺诈的现状及存在问题 20
3.1 商业银行识别小微企业信贷欺诈的现状 20
3.1.1 多维交叉验证,综合定性与定量分析以甄别信息真伪 20
3.1.2 搭建反欺诈大数据模型体系,有效助力线下贷前调查 21
3.1.3 金融科技应用待深化,仍需探索针对性欺诈识别技术 21
3.2 商业银行识别小微企业信贷欺诈存在的问题 22
3.2.1 真实欺诈样本积累不足 22
3.2.2 欺诈识别指标维度待扩充 22
3.2.3 传统分类模型识别效果失真 23
第4章 构建商业银行识别小微企业信贷欺诈的画像标签体系 24
4.1 识别小微企业信贷欺诈的画像总体框架 24
4.2 企业画像标签的数据类型及提取技术 24
4.2.1 企业画像标签的数据类型 25
4.2.2 企业画像标签的提取技术 25
4.3 构建识别小微企业信贷欺诈的画像标签层级体系 26
4.3.1 基于数据整合构建原始数据层 27
4.3.2 基于统计策略构建事实标签层 29
4.3.3 基于XGBoost构建模型标签层——生成小微企业信贷欺诈评级标签 31
第5章 基于XGBoost模型生成小微企业信贷欺诈评级 32
5.1 XGBoost模型在企业信贷欺诈评级中的可行性分析 32
5.2 数据收集与加工 32
5.2.1 数据收集及指标维度构建 32
5.2.2 数据清洗 34
5.2.3 基于IV值和相关性检测的变量筛选 35
5.3 基于XGBoost建立欺诈识别二分类模型 36
5.3.1 数据集划分及非平衡样本处理 36
5.3.2 XGBoost模型训练及参数调优 36
5.3.3 输出变量贡献度与欺诈预测概率 38
5.4 生成小微企业信贷欺诈评级 38
5.4.1 构建小微企业信贷欺诈评分 38
5.4.2 判定小微企业信贷欺诈评级 40
第6章 对策与建议 41
6.1 商业银行有效防范小微企业信贷欺诈的对策建议 41
6.1.1 持续业务沉淀,全面构建小微企业信贷欺诈表象信息库 41
6.1.2 以风险数据集市为基础,为小微企业信贷欺诈打上精准画像标签 41
6.1.3 核心技术升级,运用集成学习XGBoost模型为小微企业信贷欺诈评级 42
6.2 本文的不足与改进 43
参考文献 44
致谢 47
第1章 绪论
1.1 研究背景及意义
1.1.1 研究背景
一般而言,小微企业是指从业人数300人以下、资产总额5000万元以下、年纳税额300万元以下的小型及微型企业。虽然规模较小、组织架构相对简单,但随着中国经济发展步入新常态,小微企业逐渐成为了吸纳就业、助推经济、增加税收的重要力量。相关数据统计显示,2019年中国约有1亿户小微企业,广泛分布于各行各业,在全国企业总数中占比超96%,提供了75%的就业岗位,贡献了超65%的GDP,创造了60%的税收收入。
为纾解小微企业融资难、慢、贵的痛点问题,近年来中国政府出台了诸多小微企业信贷支持专项政策。然而,随着商业银行等各大金融机构纷纷推进小微企业贷产品布局,相关信贷欺诈现象也愈发难以忽视。部分资金链紧张或动机不良的小微企业利用虚增流水、虚假用途、虚假报表等多种欺诈手段诈骗商业银行贷款,信贷欺诈成为了这些企业骗取融资、套取资金的非法路径。据人民银行2015年调查数据,获银行授信的小微企业存在较为严重的信贷用途欺诈现象,如46%的企业将部分信贷资金挪为他用,更有16%的企业将全部资金投向股市、房市等高风险领域。2016年,属于小微企业的山东恒丰电力燃料有限公司,通过伪造兖州煤业等公司印章及经办人员签字,虚构应收账款质押成功骗取中国农业银行等金融机构近4亿元。此类欺诈案件影响恶劣、危害重大,将小微企业信贷欺诈风险进一步暴露于银行业和社会大众面前,引发广泛关注。