基于支持向量机的商业银行贷款违约判别研究

基于支持向量机的商业银行贷款违约判别研究 报告人：卢红科

研究企业贷款违约判别需要考虑的6个问题 1、什么是贷款违约判别？ 2、贷款违约判别数据指标如何选择，如何简约。 3、贷款违约判别数据的不平衡性。 4、样本企业信用状况重叠 • 5、通过参数优化以及组合模型提高分类精度 • 优化支持向量机参数的模型 • 基于支持向量机的两阶段模型分类(Two-stage model based on SVM) • 支持向量机集成(SVM Ensemble) 6、代价敏感学习 Cost-sensitive Learning Institute of Systems Engineering, Southeast University 1

1、什么是企业贷款违约判别？ 20 世纪80 年代末以来，随着金融的全球化趋势及金融市场的波动性加剧，各国银行和投资者面临严峻的金融风险，特别是这次席卷全球的美国次贷危机表明，全球化下的金融运行格局发生了根本性变化，各国金融监管体系面临前所未有的挑战和有效性问题，世界银行对全球银行业危机的研究表明，导致银行破产的主要原因就是信用风险。为了加强银行的信用风险监管，巴塞尔委员会与时俱进，先后发布了两个资本协议(郭建伟等, 2006)。企业信用违约概率的测度和评估是巴塞尔新资本协议内部评级法（IRB）的关键内容，是信用风险评估模型中主要输入变量之一。研究和探讨更加科学、有效的违约判别方法，是当前信用风险研究的重大课题(柯孔林等, 2008)。目前，国际金融界和学术界对企业贷款违约判别研究的主流是将其看作模式识别的分类问题，根据贷款企业的财务与非财务状况，总结出分类规则，建立信用违约判别模型，将其判为正常或违约企业两类。 Institute of Systems Engineering, Southeast University 2

2、企业贷款违约判别数据指标如何选 参照国内外学者的成果来看，一般可以从偿债能力、财务效益、资金营运和发展能力与潜力四个方面对财务评价进行选择。(管七海等,2004; 薛锋等,2006; Ravi Kumar等,2007; Min等，2009)。 Institute of Systems Engineering, Southeast University 3

3、贷款违约判别数据的不平衡性 • 所谓不平衡分类问题，是指训练样本数量在类间分布不平衡的模式分类问题。具体地说就是某些类的样本数量远远少于其他类。 • 在贷款违约判别研究过程中，实际得到的信用良好企业和违约企业的数据通常是不平衡的，即很多情况下信用良好企业的样本数据比违约企业的样本数据多。而就目前国内研究贷款违约判别问题的现状看，普遍都是采用同等数量的信用良好企业和违约企业来对模型进行训练和检验。(王春峰, 万海晖等,1999; 王春峰,康莉,2001;杨保安,朱明,1999;李秉祥,2005;柯孔林,2008) • 目前，解决不平衡分类问题的策略可以分为两大类(叶志飞等, 2009 )。 • 从训练集入手，通过改变训练集样本分布，降低不平衡程度。 • 从学习算法入手，根据算法在解决不平衡问题时的缺陷，适当地修改算法使之 • 适应不平衡分类问题。 • 平衡训练集的方法主要有训练集重采样(Resampling)方法和训练集划分方法。学习算法层面的策略包括分类器集成、代价敏感学习和特征选择方法等。 Institute of Systems Engineering, Southeast University 4

4、样本企业信用状况重叠 对于两类样本企业,其信用状况通常有两种分布情形:一种是两类样本企业信用状况不重叠,另一种是两类样本企业信用状况出现重叠 (薛锋,2006) 。在实际中,样本企业往往出现第二种情形，此时,对企业信用风险状况容易产生误判(Martin,1977) 。针对这一问题的解决思路主要有两条： 1、对重叠部分的样本进行二次判别，薛锋(2006)运用混合整数规划法,通过两阶段的再分类过程,对重叠部分的样本企业进行二次判别，在一定程度上提高了预测精度； 2、运用特定的方法和手段对样本数据进行预处理,以减少两类样本企业信用状况的重叠,从而提高预测精度。张目和周宗放(2009)针对两类样本企业信用状况的重叠问题，提出一种基于多目标规划和支持向量机的企业信用评估模型； Institute of Systems Engineering, Southeast University 5

人工智能算法在贷款违约判别中的应用 • 随着人工智能技术的发展，包括人工神经网络（Artificial Neural Networks，ANN）、支持向量机（Support Vector Machine，SVM）、遗传算法（Genetic Algorithm，GA）、粗糙集（Rough Set，RS）以及各种方法相互结合的组合模型逐步应用到贷款违约判别中来。 • 在小样本情形下，基于结构风险最小化（SRM）准则的支持向量机（Support Vector Machines, SVM）能够有效地避免经典学习方法中存在的过学习、维数灾难、局部极小等问题(Alexander,2006)，具有良好的泛化能力，在各种分类问题中得到了成功应用。 Institute of Systems Engineering, Southeast University 6

支持向量机（Support Vector Machine，SVM） • 支持向量机是从线性可分情况下的最优分类面发展而来的，推广到不可分的情况。基本思想可用图的两维情况说明，图中，“●”和“○”分别代表两类样本，H为分类面。H1、H2分别为过各类中离分类面最近的样本组成的面，它们之间的距离称分类间隔。所谓最优分类面就是要求分类面不但能将两类正确分开，而且使分类间隔最大。针对线性可分情况，模型如下： • 分类超平面将样本划分成两类，此时分类间隔为，使间隔最大等价于使最小。 • 其中，w为权重向量，b为偏置系数 • ai是与每个样本对应的Lagrange乘子。这是一个不等式约束下二次函数寻优 • 的问题，存在唯一解。求解上述问题后得到的最优分类函数是： Institute of Systems Engineering, Southeast University 7

支持向量机（Support Vector Machine，SVM） • 对于线性不可分情况，支持向量机通过引入松弛变量ξ以衡量对数据xi的误分类度，引入惩罚因子C 来折衷考虑最少错分样本和最大分类间隔，从而得到广义最优分类面。 • 已知：被超平面分类，学习问题为最小化目标函数： • 核函数类型：线性核函数，多项式核函数，高斯核函数。 • 在数据线性不可分时，第2、3种效果更好。其中，高斯核函数 • 为： Institute of Systems Engineering, Southeast University 8

σ2 σ2 1、优化支持向量机参数的模型 • Suykens等提出的最小二乘支持向量机(Least Squares Support Vector Machines, LS-SVM)使用二次损失函数，将SVM中的二次规划问题转换成线性方程组的求解，降低了计算复杂度。目前对SVM的研究包括各种改进型SVM，各种模型中的参数设置，SVM在模式分类、函数回归，控制理论中的应用。 • SVM训练的实质为求解一个带有界约束和线性等式约束的凸二次规划问题。大量的实验证明不同的核函数参数σ2以及支持向量机中的松弛变量ξ和惩罚因子C都会影响到最终的分类准确率。经典的求解非线性规划的方法，如牛顿法、拟牛顿法，梯度下降法(Chappelle, 2002)等计算量大而且运算速度慢(周涛,2007)。 • 由于人工智能算法是一种具有随机性的多点搜索算法，具有隐含的内在并行性，能够在多维空间中快速找到问题的最优解。 • 因此，将人工智能算法，如遗传算法(Zheng等, 2004; Huang等, 2007; 姜明辉,2008)，蚁群算法(倪丽萍等,2007; 刘春波等,2008) 粒子群算法(姜明辉,2009; Shao等,2009; Lin等, 2009 )来选择SVM的相关参数，可以提高模型的性能。 Institute of Systems Engineering, Southeast University 9

1、优化支持向量机参数的模型 • Huang（2007）运用GA对SVM的参数进行选择，构造了GA-SVM模型，用于信用评价问题，实验表明GA-SVM比GA有更高的性能。 • 周辉仁, 郑丕谔（2007）针对LS-SVM，通过建立性能指标提出了用GA优化LS-SVM的有关参数，取得了比较好的效果。同时，周辉仁（2009）还提出一种基于PSO优化LS-SVM有关参数的财务预警模型。 • 姜明辉, 袁绪川等人（2009）针对人为选择参数的随机性，提出了利用粒子群算法( PSO)进行参数自动选取的优化方法，构建了PSO - SVM模型，通过对粒子适应度函数的设置来控制造成较大损失的第二类误判。 Institute of Systems Engineering, Southeast University 10

2、基于支持向量机的两阶段模型分类 1、通过再分类过程，对样本企业进行二次判别 2、首先通过粗糙集理论（柯孔林等，2008；王波等，2008）、主成分分析（赵晓翠,2006）、核成分分析（向小东，2009），主元分析（任勋益等,2009）等方法，对样本数据进行特征提取（属性约简，Attribute Reduction），然后输入SVM进行判别。 3、首先构造加权样本，再用SVM进行判别。 Institute of Systems Engineering, Southeast University 11

1、通过再分类过程，对样本企业进行二次判别1、通过再分类过程，对样本企业进行二次判别 Huang 等人(2005)提出了一种基于两阶段遗传算法的信用评价模型，首先通过遗传算法来建立规则库，第二次再用遗传算法判别不与规则库相匹配的样本。薛锋等人(2006)运用混合整数规划法可通过两阶段的再分类过程，对重叠部分的样本企业进行二次判别。柯孔林等人(2008)针对贷款风险5级分类问题，首先通过粗糙集来建立判别规则，然后通过神经网络判别不与规则库相匹配的样本，可以提高分类的精度。 Institute of Systems Engineering, Southeast University 12

2、首先对数据样本进行特征指标选择（Feather Selection），然后将样本送入SVM学习 • 王波等人(2008)采用RS对数据集进行属性约简，再用SVM进行分类建立住房抵押贷款信用风险评估模型。 • 赵晓翠(2006)首先使用主成分分析对企业信贷风险评价的主要指标变量进行特征提取，然后利用SVM进行分类。 • Huang和Dun(2008)利用PSO算法对评价指标进行选择，然后用SVM进行判别。 • Chen等人(2009)分别使用CART 4.0和MARS 2.0软件来选择重要的样本指标，再将数据输入SVM进行判别。 • Lin等人(2009)采用PSO算法对属性进行约简，构造了PSO-SVM模型，通过实证，证明PSO-SVM模型比SVM有更好的分类精度。 Institute of Systems Engineering, Southeast University 13

3、首先构造加权样本，再用SVM进行判别。 张目, 周宗放(2009)等人首先运用多目标规划模型；运用遗传算法求解得出指标综合权重，通过构造加权样本，减少两类样本企业信用状况的重叠，可在一定程度上提高SVM的预测精度。邢永忠, 吴晓蓓(2009)利用柯西分布函数的一些特性，提出了基于柯西分布加权的最小二乘支持向量机，根据预测误差的统计特性，以确定加权规则的参数,从而赋予训练样本不同的权值。 Institute of Systems Engineering, Southeast University 14

3、支持向量机集成模型（SVM-Ensemble） • 由于SVM具有完备的统计学习理论基础，解决了小样本、非线性、高维数、局部极小值等问题，适合小样本数据的模式分类和函数逼近等问题。尽管SVM有很好的性能，许多学者采用集成算法来改进SVM，根据不同的集成技术，如Boosting (Pavlov等, 2000) 和Bagging (Derbeko等, 2002) ，构建了不同的SVM Ensemble模型 (Kim等, 2002; Valentini等, 2003; Ma等, 2004)。 • Kim和Pang等人(2003)指出：单一的SVM只能解决二分类问题，SVM Ensemble模型可以研究多分类问题。 • 同时，SVM Ensemble模型也逐渐应用到信用评价上来，Zhou等人(2009)构建LS-SVM Ensemble模型研究了信用评分模型。蒋艳霞和徐程兴(2009)用AdaBoost算法改进SVM，构成集成支持向量机，对企业财务业绩进行预测。 Institute of Systems Engineering, Southeast University 15

代价敏感问题(Cost Sensitive learning，CS) • 目前，分类判别模型通常是以精度为优化目标，假定每个样本的误分类代价相等而致力于提高其运行效率和泛化能力(Han等,2001)，然后，在企业贷款判别领域，将“违约企业”误判为“正常企业”（即第一类错误）的代价与将“正常企业”误诊为“违约企业”（即第二类错误）的代价是不同的。相比后者，前者将导致银行承担更大的违约风险，很有可能面临贷款金额无法收回的局面。显然前者的误分类代价要大于后者。在这种情况下，设计分类器时要考虑样本的不同误分类代价，实现代价敏感挖掘。 • 当错分代价不相等时，传统的基于准确率的算法不能很好地适应企业贷款违约判别问题。代价敏感挖掘考虑了不同类型错分的代价，并基于最小化总体误分代价的原理来设计分类器，从而能更好地满足错分代价不同的情况。 • 代价敏感学习(Cost Sensitive learning，CS)的研究可以追溯到Granger(1969)对文本内容分类的研究，Breiman等建立了代价敏感学习的研究框架(Breiman,1984) 。Elkan (2001)发展了Granger的研究，建立错分代价矩阵，将待预测样本分到期望代价最小的类别中。Turney(1995)和Kwedlo(2001)建立了基于分类准确率和错分代价的拟合函数的遗传算法，Zadrozny和Langford(2003)等人通过对训练数据赋权建立了基于代价敏感性的决策树分类器，Ling(2004)提出了决策树代价最小化的剪枝策略。 Institute of Systems Engineering, Southeast University 16

Cost Sensitive SVM（CS-SVM） • 国内目前针对代价敏感学习的研究还较少，代价敏感支持向量机的研究更少。 • 郑恩辉等人（2006）通过在SVM的设计中集成样本的不同误分类代价，提出代价敏感支持向量机（Cost Sensitive Support Vector Machines , CS-SVM）的设计方法 • 蒋国瑞和司学峰（2009）针对客户流失预测的分类错分代价问题，采用代价敏感方法改进Veropoluos（1999）提出的SVM模型，将CS-SVM用于电信客户流失预测 • 邹鹏和郝媛媛等人(2009)为了解决客户细分中由于客户价值不同和不同价值客户数量的悬殊差异造成对客户错误分类的代价不同和不平衡的数据样本，设计了代价敏感的支持向量机分类器，使模型能更准确地反映分类的代价，有效地识别客户价值。 • 将代价敏感支持向量机应用到企业贷款违约判别问题，可以有效地克服企业贷款违约客户数据集错分代价的差异性问题。 Institute of Systems Engineering, Southeast University 17

今后要做的事情： 1、尝试采用PSO对评价指标进行属性约简； 2、将改进的PSO和蚁群算法对最小二乘支持向量机的参数进行学习，构造企业贷款违约判别模型，着重考虑分类精度问题； 3、目前，将代价敏感学习用于贷款违约判别研究，构造基于改进PSO的代价敏感支持向量机模型（PSO-CS-SVM）； 4、考虑在文献[](张目, 周宗放, 2009）的基础上，构建基于多目标规划以及改进支持向量机的贷款违约判别模型，研究样本重叠问题。 Institute of Systems Engineering, Southeast University 18

参考文献[1] [1] 郭建伟, 唐春阳, 冯宗宪. 考虑定性指标及误判损失的企业违约判别神经网络模型[J].中国管理学报, 2006, 14(15):104-108. [2] 柯孔林, 冯宗宪. 基于粗糙集与遗传算法集成的企业短期贷款违约判别[J]. 系统工程理论与实践, 2008, 27-34. [3] 管七海,冯宗宪. 我国制造业企业短期贷款信用违约判别研究[ J ]. 经济科学，2004,(5):77-87. [4] 薛锋,柯孔林. 基于混合整数规划法的企业信用风险评估研究[J].中国管理科学, 2006, 14 (2):39 -44. [5] P. Ravi Kumar,V. Ravi. Bankruptcy prediction in banks and firms via statistical and intelligent techniques-A review[J]. European Journal of Operational Research, 2007,180: 1–28 [6] Jae H. Min, Chulwoo Jeong. A binary classification method for bankruptcy prediction[J]. Expert Systems with Applications, 2009,36:5256–5263. [7] 王春峰,万海晖,张维. 组合预测在商业银行信用风险评估中的应用[J].管理工程学报,1999,13(1):5-8. [8] 王春峰, 康莉. 基于遗传规划方法的商业银行信用风险评估模型[J].系统工程理论与实践, 2002,2:73- 79. [9] 杨保安,朱明. 基于神经网络与专家系统结合的银行贷款风险管理[J]. 系统工程理论与实践, 1999,8(1):7-10. [10] 李秉祥. 基于模糊神经网络的企业财务危机非线性组合预测方法研究[J]. 管理工程学报, 2005.19(1):19-23 [11] 叶志飞, 文益民, 吕宝粮. 不平衡分类问题研究综述[J].智能系统学报,2009,4(2):158-156. [12] [12] Martin D. Early Warning of Bank Failure: a Logit Regression Approach [J]. Journal of Banking and Finance, 1977, 1(11) : 249 - 276. [13] 张目, 周宗放. 基于多目标规划和支持向量机的企业信用评估模型[J].中国软科学 2009,185-190. [14] Senf Alexander , Chen Xue wen , Zhang Anne. Comparison of one-class SVM and two-class SVM for fold recognition [C].Neural Information Processing-13th Int Conf ICONIP 2006 , Proc. Hong Kong , 2006 :140-149. [15] Huang J J, Tzeng G H, Ong C S. Two-stage genetic programming (2SGP) for the credit scoring model[J]. Applied Mathematics and Computation, 2006, 2(174): 1039-1053. Institute of Systems Engineering, Southeast University 19

参考文献[2] [16] Chappelle O, Vapnik V, Bousquet O, et al. Choosing multiple parameters for support vector machines[J]. Machine Learning,2002, 46(1): 131−160. [17] 周涛,张艳宁.基于改进粒子群算法的支持向量机[J].计算机工程与应用,2007,43(15):44-46 [18] Zheng Chun-hong, JIAO Li-cheng. Automatic parameters selection for SVM based on GA[C]// Proceedings of the the 5th World Congress on Intelligent Control and Automation.Piscataway. NJ: IEEE Press, 2004: 1869−1872. [19] 姜明辉，袁绪川. 个人信用评估GA-SVM模型的构建与应用[J]. 合肥工业大学学报, 2008, 31 (2): 267-283. [20] Cheng-Lung Huang, Mu-Chen Chen, Chieh-Jen Wang. Credit scoring with a data mining approach based on support vector machines[J]. Expert Systems with Applications 2007,33:847-856 [21] 姜明辉,袁绪川,冯玉强，PSO - SVM模型的构建与应用[J]. 哈尔滨工业大学学报,2009, 41(2):169- 171. [22] 倪丽萍,倪志伟,李锋刚, 等. 基于蚁群算法的SVM模型选择研究[J].计算机技术与发展,2007,17(9): 95-98. [23] 刘春波, 王鲜芳, 潘丰. 基于蚁群优化算法的支持向量机参数选择及仿真[J].中南大学学报,2008,36 (6):1309-1313 [24] Shao Xin-guang, Yang Hui-zhong, Chen Gang. Parameters selection and application of support vector machines based on particle swarm optimization algorithm[J]. Control Theory and Applicatiaon. [25] 周辉仁,郑丕谔,王嵩. 基于粒子群优化算法的LS-SVM财务预警[J]. 计算机工程,2009,35(9)：280- 282. [26] 周辉仁, 郑丕谔. 基于遗传算法的LS-SVM 参数优选及其在经济预测中的应用[J]. 计算机应用, 2007, 27(6): 1418-1419. [27] 柯孔林, 冯宗宪. 基于粗糙集和神经网络集成的贷款风险5级分类[J]. 控制理论与应用, 2008, 25 (4): 759-763. Institute of Systems Engineering, Southeast University 20

参考文献[3] [28] 王波, 刘勇奎, 郝艳友. 基于粗集和SVM的客户抵押贷款违约评估[J].计算机工程与应用,2008,44(9) 229-233. [29] 赵晓翠, 王来生，主成分分析和支持向量机的商业银行信贷风险评估[J]. 统计与决策，2006,7: 22-23. [30] 向小东, 宋芳.基于核主成分与加权支持向量机的福建省城镇登记失业率预测[J]. 系统工程理论与实践, 2009, 29(1):73-80. [31]任勋益, 王汝传, 孔强. 基于主元分析和支持向量机的异常检测[J]. 计算机应用研究,2009,26(7): 2719-2721. [32] Cheng-Lung Huang, Jian-Fan Dun. A distributed PSO–SVM hybrid system with feature selection and parameter optimization[J]. Applied Soft Computing, 2008,8:1381–1391 [33] Weimin Chen, Chaoqun Ma, Lin Ma .Mining the customer credit using hybrid support vector machine technique[J]. Expert Systems with Applications. 2009,36:7611–7616. [34] Shih-Wei Lin, Yeou-Ren Shiue, Shih-Chi Chen . Applying enhanced data mining approaches in predicting bank performance: A case of Taiwanese commercial banks[J]. Expert Systems with Applications [35] 邢永忠, 吴晓蓓,徐志良. 基于柯西分布加权的最小二乘支持向量机[J]. 控制与决策,2009，24 （6）：937-940. [36] D. Pavlov, J. Mao, B. Dom, Scaling-up support vector machines using the boosting algorithm, in: Proceedings of the International Conference on Pattern Recognition, Barcelona, Spain, September 3–7,2000, pp. 19–22. [37] P. Derbeko, R. El-Yaniv, R. Meir, Variance optimized bagging, in: Proceedings of the 13th European Conference on Machine Learning, Helsinki, Finland, August 19–23, 2002: 60–71. [38] H.-C. Kim, S. Pang, H. Je, D. Kim, S.Y. Bang, Pattern classification using support vector machine ensemble, in: Proceedings of the 16th International Conference on Pattern Recognition 2, Quebec, Canada, August 11–15, 2002:160–163. Institute of Systems Engineering, Southeast University 21

参考文献[4] [39] G. Valentini, M. Muselli, F. RuQno, Bagged ensembles of SVMs for gene expression data analysis,in: Proceeding of the International Joint Conference on Neural Networks, Portland, OR, USA,July 20–24, 2003, pp. 1844–1849. [40] Junshui Ma , Ashok Krishnamurthy, Stanley Ahalt，SVM training with duplicated samples and its application in SVM-based ensemble methods，Neurocomputing ，2004，61：455 – 459 [41] Hyun-Chul Kim, Shaoning Pang, Hong-Mo Je，Constructing support vector machine ensemble,Pattern Recognition 2003，36：2757 – 2767 [42] Li gang Zhou, Kin Keung Lai , Lean Yu, Least squares support vector machines ensemble models for credit scoring [43] 蒋艳霞, 徐程兴. 基于集成支持向量机的企业财务业绩分类模型研究[J]. 中国管理科学,2009,17(2): 42-51. [44] Han J , Kamber M. Data Mining: Concepts and Techniques [M ]. San Francisco CA: Morgan Kaufmann, 2001. [45] anger CW J. Prediction with a generalized cost of error function[J]. Operational Research Quarterly, 1969, 20 ( 2) :199—207. [46] Leo Breiman, Friedman J H, Olshen R A, Stone C J. Classification and regression trees[M]. Belmont, California: Wadsworth International Group, 1984. [47] Elkan C. The foundations of cost-sensitive learning [C]. Proceedings of the 17 International Joint Conference on Artificial Intelligence, 2001. [48] Turney P D. Cost-sensitive classification: empirical evaluation of a hybrid genetic decision tree algorithm [J]. Journal of Artificial Intelligence Research, 1995, (2): 369—409. [49] KwedloW, M KretowskiL, De Raedt P. Flach. An evolutionary algorithm for cost-sensitive decision rule learning[C].ECML 2001, LNA I 2167, Heidelberg: Springer, Berlin: 288—299. [50] Zadrozny B, Langford J, NaokiAbe. Cost-sensitive learning by cost proportionate example weighting[C]. Proceedings of the Third IEEE International Conference on Data Mining, 2003: 435. Institute of Systems Engineering, Southeast University 22

参考文献[5] [51] Ling C X, Q Yang, J Wang, S Zhang. Decision trees with minimal costs[C]. Proceedings of the 21st International Conference on Machine Learning,2004. [52] 郑恩辉, 李平, 宋执环. 代价敏感支持向量[J]. 控制与决策, 2006, 21（4）:473-476. [53] 蒋国瑞, 司学峰. 基于代价敏感SVM的电信客户流失预测研究[J].计算机应用研究,2009,26(2):521- 523. [54] Veropoulos K, Cambell C, Cristian Nin. Controlling the sensitivity of support vector machines[C] // Proc of the International Joint Conference on AI. 1999: 55-60. [55] 邹鹏, 郝媛媛. 客户价值细分的代价敏感支持向量机方法[J].计算机应用研究,2009,26(10):192-194 Institute of Systems Engineering, Southeast University 23

基于支持向量机的商业银行贷款违约判别研究