第4章：细致分析与自变量分析¶

评分模型是将所有能预测客户未来是否会发生目标事件的变量进行优化的排列组合，并予以适当的权重后，给予目标客群一个客观的信用评价。因此，模型变量的质与量会对评分模型的评价预测结果产生显著的影响。

在进入模型开发的程序前，开发单位会针对项目目标，邀集产品相关部门（开发/销售/征审等）进行讨论，并引导与会人员提出可能影响目标达成的潜在因素，进而列举未来开发程序所需要的各式变量逻辑与数据期间长度。后续信息单位接收项目开发数据的汇整需求，确认数据库系统状态，并针对开发单位提出的数据需求进行讨论，然后，信息单位列出长变量列表（Long List），供模型开发使用。

模型变量有两种类型，分别是连续型变量（Continuous Variable）与离散型变量（Discrete Variable）。连续型变量是指该变量为观察数据所得的实际数值，并没有经过群组处理，例如，客户出生日为1973年10月24日，以2009年12月31日为计算时点，则该客户的年龄即为36岁；离散型变量是指质性变量或类别型变量，例如，将客户教育程度分为“中学以下”“大学”及“研究生以上”，或将变量实际数值进行分组处理，例如，将客户年龄进行分组处理，20～29岁为年龄群组一，30～39岁为年龄群组二。如果客户年龄为36岁，则归到年龄群组二中。

两种变量类型都适用于评分模型，但我们建议变量使用离散形态进行评分模型开发，主要原因如下：

离散型变量有助于处理极端值或是样本数量较少的变量。
非线性的因变量（Dependencies）可应用于线性模型（Linear Model）
离散型变量可协助模型开发人员了解各变量与目标事件的趋势关系
开发单位可预先知悉发生目标事件的开发样本及其概略的行为特质

4.1 细致分类（Fine Classing）¶

长变量列表完成后，会持续进行细致分类（Fine Classing），将连续型变量区分成几个区间，以便进行单变量分析。

细致分类的一般做法是将变量按样本比例均分（Equal Population）的方式分为10～20个区间，观察变量与目标事件的逻辑趋势（Logical Trend）和实际业务经验是否相符，如果趋势与认知不相符，即表示该变量不适合用于开发模型，然后，再配合单变量分析结果进行变量筛选。

4.2 范例¶

表4-1分别利用“近1个月的额度使用率”及“与银行往来期间”两个变量，以预测“未来12个月内是否发生违约”为目标事件，说明细致分类的过程。

4.2.1 范例1：近1个月额度使用率¶

首先，计算所有样本的额度使用率并由低到高排序，按比例均分的原则将样本分为20个分组区间，并找出每个分组区间的临界值，根据分组区间临界值统计各分组的正常户、违约户与总户数，衍生后续的各项数据并制作细致分类表（见表4-1）。

根据一般信用卡业务经验，客户的额度使用率越大，未来发生违约的概率越高，对照近1个月额度使用率分组与违约率的趋势图可以发现，当开发样本接近1个月、额度使用率变大时，违约率确实呈现增加的趋势，该趋势与业务经验一致，且近1个月额度使用率大于20.60%时，其分组违约率便开始高于样本平均违约率（见图4-1）。

4.2.2 范例2：与银行往来期间¶

首先，计算所有样本的“与银行往来期间”并由低到高排序，按照比例均分的原则将其分为20个分组区间，找出每个分组区间的临界值，根据分组区间临界值统计各分组的正常户、违约户与总户数，衍生后续的各项数据并制作细致分类表（见表4-2）。

一般信用卡的业务经验告诉我们，客户与银行往来期间越久，未来发生违约的概率会越低，对照与银行往来期间分组与违约率的趋势图发现，开发样本的“与银行往来期间”与违约率之间没有任何显著的关系，与业务经验也不一致，这表示“与银行往来期间”并不适合用于开发信用评分模型，无须再进行后续的单变量分析（见图4-2）。

4.3 单因子分析（Single Factor Analysis）¶

在长变量列表上列举各式各样的变量，开发单位等待变量进行细致分组，比较业务经验与趋势，淘汰不一致的变量后，后续针对变量进行单变量分析，再利用分析数据观察变量在不同期间的稳定程度，以及对目标事件的预测能力大小，最常使用的指标就是群体稳定度指标（Population Stability Index，PSI）与信息值（Value OfInformation，VOI）。

4.3.1 群体稳定度指标（Population Stability Index，PSI）¶

制订群体稳定度指标的主要目的是了解不同时间点的样本形貌是否有所改变，可用来评估整体模型的评分概况，或个别变量的变动情况。群体稳定度指标计算公式如下所示，在本章中将利用群体稳定度指针来观察变量分组在不同时点下的分布情况（第十章模型监控报告中将对PSI做更细致的说明）。

公式一：群体稳定度指标

\[ \sum (\text{比较时点分组样本百分比 - 基准时点分组样本百分比}) \\ \times \ln (\frac{\text{比较时点分组样本百分比}}{\text{基准时点分组样本百分比}}) \]

一般而言，当PSI小于0.1时，即表示不同时点下，变量的分组样本百分比并无显著的变动，稳定度甚佳，可用来开发模型；现用两个不同期间的“近1个月额度使用率”数据说明如何使用PSI观察变量的稳定度。

将两个期间内各分组的样本数与样本百分比整理成列表（见表4-3），根据前述的公式计算每一个分组的样本稳定数值，计算范例如下：

近1个月的额度使用率 ≤ 0.28%：（6.54%－5.05%）×ln （6.54% / 5.05%）＝0.0039
近1个月的额度使用率 ≤ 0.51%：（6.19%－5.00%）×ln （6.19% / 5.00%）＝0.0025

由表4-3可知，近1个月额度使用率随着时间的拉长有逐渐减少的趋势，但是PSI仅0.0327，变动幅度并不大，可用于开发单位以后建构评分模型。

4.3.2 信息值（Value Of Information，VOI）¶

信息值可以协助模型开发人员了解各变量对于目标事件的单一预测能力的高低，借以挑选出高预测能力的变量进行开发，信息值的公式如下。

\[ \sum_{i=1}^n (\text{非目标样本百分比 - 目标样本百分比}) \times \ln (\frac{\text{非目标样本百分比}}{\text{目标样本百分比}}) \]

公式二：信息值目标样本指实际发生目标事件的样本，非目标样本为实际未发生目标事件的样本。

信息值的判断标准为，当VOI 小于0.02时，表示该变量对目标事件并无预测能力；当VOI介于0.02～0.1时，表示该变量对目标事件稍微有预测能力；当VOI介于0.1～0.3时，表示该变量对目标事件有部分预测能力；当VOI大于0.3时，表示该变量对于目标事件有较高的预测能力（见表4-4）。

VOI	预测能力
<0.02	无预测能力（Unpredictive）
0.02～0.1	弱预测能力（Weak）
0.1～0.3	中等预测能力（Medium）
> 0.3	强预测能力（Strong）

现用前述字段“近1个月额度使用率”来说明VOI的计算过程与预测能力。假设目标事件为未来12个月样本发生违约，则违约户即为目标样本，正常户为非目标样本。

将“近1个月额度使用率”20个分组的各项数据详细整理成表（见表4-5），按照信息值公式逐一计算各分组的信息值：

近1个月的额度使用率 ≤ 0.28%：（5.10%－0.55%）×ln （5.10% / 0.55%）＝0.10
近1个月的额度使用率 ≤ 0.51%：（5.05%－0.69%）×ln （5.05% / 0.69%）＝0.09

将20个分组的信息值加总可以发现，“近1个月的额度使用率”对于样本未来12个月是否发生违约具有显著的预测的能力，开发人员可依此来开发评分模型。

4.3.3 相关系数¶

长变量列表上列举的变量群中，有些变量间仅是月份数不同，例如，“近3个月循环信用使用率”与“近6个月循环信用使用率”，或是变量间仅是加工前后不同，例如，“近3个月的循环信用使用金额”与“近3个月的循环信用使用率”，对于目标事件的预测能力与趋势可能差异性不大，表示这些变量间有很大程度的关联性。

当评分模型变量间的相关性过高时，会产生共线性（Collinearity）的问题，导致模型的预测能力下降，甚至出现与预测结果相反且无法解释的现象。为避免变量间的高度相关削弱模型预测能力，开发人员会计算各变量间的相关系数，借以筛选最终的开发模型变量。

公式三：相关系数

\[ \rho_{X,Y} = \frac{\mathrm{Cov}(X,Y)}{\sigma_X \sigma_Y} = \frac{\sum \left[(X - \overline{X})(Y - \overline{Y})\right]}{\sqrt{\sum (X - \overline{X})^2 \sum (Y - \overline{Y})^2}} \]

相关系数值与对应的相关程度如表4-6所示。对于开发评分模型而言，如果相关系数超过0.7，表示变量间的相关程度太高，必须进行筛选以免降低模型的预测能力。

相关系数	相关程度
1	完全相关
0.7 ~ 1	高度相关
0.4 ~ 0.7	中等相关
0.1 ~ 0.4	低度相关
< 0.1	弱相关或不相关

4.3.4 变量筛选¶

长变量列表收集了所有模型开发前数据库中所能产出的变量，这些变量数量繁多且并非每一个变量都可用于开发模型，可借由每一个变量的PSI、VOI与相关系数，综合考虑稳定性、预测能力、变量间相关程度及业务认知后，进行变量的筛选。

一般而言，当变量的PSI小于0.1且VOI大于0.1，即表示该变量在不同的期间下具有相当的稳定度，对目标事件也有显著的预测能力，因此，会先保留该变量至短变量列表。当保留变量间的相关系数大于0.7时，就会根据业务经验挑选较为适合预测目标事件的变量进行后续的开发步骤。

4.4 粗略分类（Coarse Classing）¶

筛选后的变量会收集至短变量列表，针对保留下来的变量我们会进行粗略分类，观察原来细致分类的变量分组趋势是否需进一步合并。粗略分类有下列几项原则供大家参考：

变量上升或下降的趋势需与实务经验一致。
单一变量应维持至多8个区间。
各分组好坏对比值（G/B Index）至少需差距15以上。
各分组需涵盖2%以上的模型开发样本。
各分组需至少有30笔发生目标事件的开发样本或开发样本至少占该组样本的1%。
将空白、缺值或其他特殊变量值合并至同一区间，统称为空集（Null Group）。
一般Null Group分组好坏比需比整体低（好坏对比值接近100B或以上）。

4.5 范例¶

现用“近1个月额度使用率”的细致分类表，进一步说明变量的粗略分类步骤。

因为近1个月的额度使用率≤4.78%的11个分组，其违约率均小于0.30%，好坏比大于400且好坏对比值大于400G，所以会将这11个分组合并为单一分组，计算结果如图4-3所示。

近1个月额度使用率＞4.78%、≤10.21%的3个分组，因其违约率在0.30%～0.38%，好坏比与好坏对比值较为相近，所以将此3个分组合并为一个新的分组，如图4-4所示。

近1个月额度使用率＞10.21%、≤20.51%的两个分组，因为违约率、好坏比与好坏对比值和前后的分组都有显著的差距，因此，将这两个分组合并为新分组，如图4-5所示。

将近1个月额度使用率的粗略分类结果整理于表4-7中，并逐一检视前述各项原则。
变量上升或下降的趋势需与实务认知一致。
单一变量应维持至多8个区间。
各分组好坏对比值至少需差距15以上。
各分组需涵盖2%以上模型开发样本。
各分组需至少有30笔发生目标事件的开发样本或是此类开发样本占该群样本的1%。

粗略分类的过程中，由于分组合并的看法与理由较为主观，所以有时也会搭配前台征审人员的专家经验，并无强制性的规则，合并过程中也需将选择的规则与理由详细记录下来，作为文件化的内容及未来修改的依据（见图4-6）。