第7章:最终模型选择与风险校准(Calibration)¶
在前面的章节里,根据特征变量分析及二阶段回归模型等方式所衍生出来的模型回归式,是评分卡及违约概率(Probability of Default,PD)模型最重要的架构,从此架构可以分别发展出:①申请或行为评分卡。②用于资本计提的PD模型,如表7-1所示。
1. 最终模型产出¶
最终模型产出是回归式,其模型在评分卡的运用上较不好解释,因此,必须将变量转换为分数以利于业务上的运用。在前面的章节中已指出,变量的转换可选择利用虚拟变量(Dummy Variable)或WOE值来取代,其中虚拟变量可单纯地将各变量群组乘以1 000来表达各变量群组的权重;而WOE值则需套用较复杂的转换,因此,必须运用评分卡尺度技术将评分卡系数转换为便于解读的权重。
-
平均分数为200分,每隔20分好坏比(Odds)加倍Odds指的是好坏件(Good/Bad)的比值,也就是每隔20分,好件与坏件的比例会加倍,因此,可以根据此分数区间规划合理的风险区,以进行差异化管理。
-
分数尺度 (1) 基本上我们建立的评分卡规则是可加成的规则,因此,调整后的分数根据以上的假设必须是单纯的线性方程式:
由于假设平均分数600分,每隔20分Odds加倍,因此,可以将此假设代入式(7-1)中,得到以下方程
式中,PDO为Point of Double Odds,表示每隔多少分Odds加倍。
将式(7-2)减式(7-1),分数互相抵消,可以得到以下方程:
此时就可以根据PDO的假设计算B值,同时将B值代入方程式,即可计算A值:
式中,Score为平均分数,Odds则以建立模型时的平均水平代入。
例如,Base Scone为600,Base Odds为50,而PDO为20时,则B=20/ln(2)=28.9;而A=600-B×ln(50)=487.1,好坏比与分数的转换式为 Score=487.1+28.9×ln(Odds)
评分尺度范例如图7-1所示。
(2)根据逻辑回归方程式,Odds等于各变量的WOEi及回归方程式系数(βi)与常数项(α)之组合,根据方程式计算,可以得到以下分数尺度公式:
式中,WOEi为该变量值在分组中的WOE值,n为模型回归式里的变量数量。
最终模型产出表如表7-2所示。
此方程式的目的如下:
- 便于建立过程中各个版本评分卡互相比较。
- 便于使用者解读。
- 便于监理机关进行信息揭露,同时与违约概率整合。
2. 设定风险校准(Risk Calibration)¶
2.1 不同评分卡的分数调校¶
若同一产品因其不同特性切分为数个评分卡,如信用卡评分卡分为全清户评分卡与循环户评分卡,如此一来,两张评分卡的模型基础可能处于不同水平上,例如,全清户的400分与循环户的600分,难以比较哪个分数较高,于是必须设定风险校准(Risk Calibration)来转换各分组的评分。
在好坏表现定义于不同分组间相同的前提下,风险校准采用同等好坏比来转换各分组评分分数,使得相同好坏比达到相同评分结果,且评分与好坏比应呈现正向相关。
评分模型风险校准过程如下:
- 计算出各分组所有样本的最终模型评分。
- 各分组样本分数由低到高排序。
- 将排序后的样本切成n等分,可能是20等分、30等分及50等分等,再计算每一等分的好件数、坏件数、好坏比、ln(Odds)及平均分数。
- 建立每种切等的平均分数及ln(Odds)间的回归式,观察在哪种切等方式下,回归式会有最佳的解释能力,即有最高的决定系数(R-Square),并观察期望好坏比值相比于实际好坏比值是否相近。
- 由上述回归式套入Score=A+B×ln(Odds),则可得到最后的校准函数,如Base Score为400,PDO为40,则 最后分数=400+40/ln (2) ×ln(Odds)。其中对数好坏比值ln(Odds)是将平均分数及对数好坏比值间所建立的最佳回归式代入即可,然后利用各种统计软件包求得其最适模型。
- 以校准分数为因变量,最终评分模型的变量为自变量进行回归分析,可得到最后各变量属性的系数,也是风险校准后评分卡(Calibrated Scorecard)的分数。日后评分卡变量使用及定期监控皆以Calibrated Scorecard为主。
以表7-3及表7-4为例,可以得到分组30的解释能力最佳(R2为0.993最高),则其校准函数如下所列:
最后分数=400+40/ln(2)×(-190.7+0.002x2-0.25x3+0.01x4)
2.2 风险等级的区隔¶
此外,为利于实务上的应用,应针对评分卡分数进行风险区隔,一般以不超过20等分为主,常用的切分方式有如下几种。
- 好坏比法:将风险级距相近的切成同一等级,主要是将相同风险等级的族群分层管理,其差距约为双倍好坏比(Double Odds)。
- 母体均分法:每个风险等级分配的人数相近,且每个级距的建模样本应有一定以上的数量。样本数太少的等级可与其他相邻等级合并,一般而言,发生在低分组与高分组的等级中。每一个切分完成的风险等级,其内含样本数至少要有全体建模样本的3%~5%,才是足够的样本数量,如表7-5所示。
3. 模型验证¶
在信用评分卡的建立过程中,为了能够有效评估信用评分卡的预测能力及诊断能力是否需要进一步修正,必须通过以下模型验证来检视评分卡成效。
3.1 基尼系数(Gini Coefficient)¶
图7-2中向下弯曲的曲线即称为洛伦茨曲线(Lorenz’s Curve),是用来评估评分卡鉴别效果的标准图表。其横轴是根据分数由高到低累计的正常客户占总正常客户的比例,而纵轴则是分数由高低累计的违约客户占总违约客户的比例。由于分数高者为低风险客户,累计违约比例的成长速度会低于累计正常客户,因此,洛伦茨曲线会呈现向下弯曲的趋势,在洛伦茨曲线图中,向右下突出的半月形面积除以45°线下方三角形面积的比值,被称为基尼系数(Gini Coefficient)。此项系数越大,鉴别力越高;系数越小,表示鉴别力越低。而45°线的含义则代表模型不具备区别能力(随机模型)。
3.2 Kolmogrov-Smirnov值(以下简称KS值)¶
洛伦茨曲线图主要用来评估评分卡总体预测力,而K-S 测试图则用来评估在评分卡何种评分区间能够将正常客户与违约客户分开,K-S值越高,则代表两者距离越大,因此,K-S曲线出现的最大值就是鉴别正常户与违约户的最佳点。
累计各评分分数下的K-S值,就可完成K-S测试图,如图7-3所示。其横轴是评分卡分数,而图形中三条线分别是:分数由低到高累计的正常客户占总体正常客户的比率、分数由低到高累计的违约客户占总体违约客户的比率,以及正常客户减去违约客户的比率差值;其中概率差值这条线就是K-S值。
3.3 ROC曲线上的面积(Area Under ROC Curve,AUC)¶
ROC曲线是以在所有可能的截断点下,计算出来的对评分模型的误授率(型一误差率,误授率表示模型将违约客户误评为好客户,进行授信业务的比率)和1-误拒率(型二误差率,误拒率表示模型将正常客户误评为坏客户,拒绝其授信业务的比率)的数量所绘制而成的。AUC值是曲线下方的总面积,如图7-4所示。
其中,Gini与AUC的关系如下:½×Gini+50%=AUC
以上3种模型鉴别力的判断准则如表7-6所示。
模型验证除对开发样本(Development Sample)做鉴别力检验外,也需针对保留样本(HoldoutSample)及样本外(Out Sample)做验证。
| Gini 系数 | K-S 值 | AUC 值 | 模型的优劣程度 |
|---|---|---|---|
| 0% | <20% | =50% | 无区分能力 |
| 0%~40% | 20%~30% | 50%~70% | 模型区辨能力极差 |
| 40%~60% | 30%~50% | 70%~80% | 可接受的区辨能力 |
| 60%~80% | 50%~75% | 80%~90% | 非常良好的区辨能力 |
| 80%~100% | >75% | 90%~100% | 可能有模型配适过度的疑虑 |
其中保留样本,顾名思义,是验证样本同时也是建模样本的一部分,我们随机抽取建模样本的一部分,作为样本内验证的验证样本。
样本外的验证是来自非建模样本的验证数据,按取样时期又可分为样本外(Out of Sample)验证样本和样本时间外(Out of Time)验证样本。样本外验证样本是取样时点与建模样本取样时点相同的验证样本,而样本时间外验证样本则是取样时点不包含与建模样本相同取样时点的验证样本。
- 开发样本及保留样本(Development & Hold-Out Sample)验证:开发样本及保留样本(Development & Hold-Out Sample)验证
| 开发样本(70%) | 保留样本(30%) | |
|---|---|---|
| GINI | 65 | 63 |
| KS | 53 | 51 |
- 时间样本外(Out-of-Time Sample)的验证:为确保模型不会因为外在因素而产生无法适应的状况,也是为确保模型不受时间的干扰。此数据集与原始的数据集仅时间点不同,其他的数据字段和定义仍与原来的数据相同。
与表7-7相较,表7-8的Gini值和K-S值稍有下降,但都在良好的好坏区辨能力范围内,表示此模型不受时间因素干扰,模型仍可维持其原有的鉴别力。
| 样本外验证 | |
|---|---|
| GINI | 61 |
| KS | 48 |
此外,也可针对风险等级区分结果进行验证,分别针对开发样本、保留样本及样本外数据进行模型鉴别力验证,以确保此等级区分方式是有鉴别力的。如表7-9所示,此分级下的Gini值及K-S值表现都是良好的。
完整的验证方式可避免研究人员选样的偏差(Bias)或忽略某些重要的因素,导致模式在实际应用时产生落差,也可确保模型的稳定度及避免时间因素造成的影响等。











