第2章:信用评分模型规则与设计¶
1. 数据收集与质量检验¶
笔者从过往评分模型开发经验来看,资料的收集往往是整个项目过程中最繁复吃力的工作,毕竟数据的质量及其涵盖范围主导着最终模型的预测结果。模型鉴别力是否合乎项目预期目标?使用的数据变量是否足够解释应变量的产生?这一切皆依赖完整良好的开发数据来确保评分模型的效度与适切性。
在数据收集阶段,我们首要检视的项目如下。
1.1 是否有足够的坏客户¶
模型开发的最终目的在于分辨好坏客户,倘若开发母体本身的坏客户数量不多,会直接影响我们找出坏客户的行为模式,致使缺乏足够的样本以产生有意义的统计分析。
1.2 数据的可得期间是否满足项目目标¶
统计模型的重要基础是利用过去的历史资料预测未来母体的表现结果,也暗示历史数据必须在某种程度上具有与现行或未来母体客群的相似性。假使数据期间所涵盖的产品或客户已非开发模型的目标客群,则此历史资料不具备代表性,不适合作为开发模型的数据源。
1.3 自变量数据是否准确¶
为了能正确建立自变量与应变量间的预测关系,在捕捉变量数据时,需确认数据字段的定义和其记录时的方式。例如,“年收入”这个变量,一般对预测申请件好坏具有很强的鉴别力,但若存在下述情况,则会影响变量数据的准确性可能会导致最终“年收入”变量的鉴别力不佳。
- 分析人员需确认的年收入定义是否一致?
- 是以14个月还是12个月收入做加总?
- 数值是否翔实?
- 未填写数据时是否维持空白或代入预设数值?
2. 应排除的数据样本¶
并非所有历史数据皆可纳入模型开发样本,在筛选合格样本时,首先需透过数据检核摒除有瑕疵的样本。例如,数据不完整导致变量遗失值比例过高,或是样本留存的逻辑不符合模型开发需求等;其次则需设定属于“不予评分”或“政策拒绝”等项目的排除条件。
进一步说明排除条件的定义,其泛指用来辨认因政策更改或其他因素致使其信用行为与一般客户不同的样本条件。如果将这类样本用于开发,将会使模型效度产生偏移。例如,专为VIP客户设计的顶级信用卡,因其对收入设置高门槛,此类客户倒账的情况可以说微乎其微;若将其纳入开发样本中,可能使得模型在预测除收入外的其他变量属性与VIP相同客群的行为表现时,产生显著偏低的倒账概率。
政策拒绝条件是指客户申请信用贷款时,因客观条件明显被认定具有高信用风险(如在联征中心有强停或拒往记录)而遭自动拒绝的申请条件。模型开发单位在选取开发样本时,必须将该政策拒绝样本予以排除,以避免影响评分模型的效度。
3. 样本期间、好坏客户定义¶
政策拒绝条件是指客户申请信用贷款时,因客观条件明显被认定具有高信用风险(如在联征中心有强停或拒往记录)而遭自动拒绝的申请条件。模型开发单位在选取开发样本时,必须将该政策拒绝样本予以排除,以避免影响评分模型的效度。
资料期间的区段及定义将在以后的章节中详细说明,在此需特别提醒读者:开发申请评分模型所需观察期间为搜集各月份申请案件,而行为评分模型所需观察期间,则是先确定资料快照(Snapshot)作为观察时点,其观察期间则是指该时间点过去N个月内的行为表现。图2-1分别以12个月的长度作为观察期间与表现期间,若是行为评分,则是以观察时点2001年12月31日过去12个月的行为表现作为自变量来源;若是申请评分,则是以2001年1月至2001年12月即过去12个月的申请,分别对应12个月的表现时点。例如,2001年1月的申请,其表现时点对应为2002年1月31日。
- 观察时点(Observation Point):观察时点是指评分卡项目中,所需样本选取的时间点。该时点下的客户信息即是评分模型用来评价客户的信用水平及预测客户未来是否发生违约的重要参考。不过要注意的是,必须将观察期间内符合政策拒绝条件与排除条件的样本排除在开发样本外。
- 观察期间(Observation Period):观察期间是指开发样本过去的信用状况与缴款记录,该期间,样本的相关信息都是开发信用评分模型的重要参考,也是组成模型的基本架构。
- 表现时点(Outcome Point):表现时点是开发单位最终判断选取样本属于好坏客户,或是无法决定客户的时间点
- 表现期间(Outcome Period):表现期间是指开发样本与本行往来的信用状况,以供模型开发单位于表现时点判断样本的好坏属性,客户发生违约的情况会经过一段时间而趋于稳定成熟,所以,表现期间的长度至少需要与成熟期一致甚至更长才行。
所有合格的开发样本均由其绩效表现决定。可能的表现表现共有3类:好(Good)、坏(Bad)和不确定(Indeterminate),任一开发样本皆需依序检视其表现期间是否符合好坏件定义指标(G/B Indicator),继而判定其表现表现
信用风险评分模型样本的绩效表现一般主要是依据其账户延滞状况决定的。然而,由于产品特性的不同,不同产品可能有不同的坏件定义,代表着不同的延滞程度。例如,担保型贷款产品的客户在前期延滞期间还款的概率仍然很高,因此,在坏件定义上,采取的延滞程度标准往往比无担保产品宽松(一般而言,有担保常用120天,无担保则用90天)。
为了判定绩效表现,最初,会以产品延滞严重程度下定义,而后再由表2-1所示的滚动率分析来观察样本属性在经过一段时间后,是否会产生偏移变化,并以此决定好(Good)、坏(Bad)或不确定(Indeterminate)的定义(见表2-2)。
滚动率分析的二维分析表可以协助分析人员了解样本属性在不同时间内好坏比例的变化,借此观察样本的好坏定义指针是否需要进行调整。表2-1滚动率二维分析的纵轴为初始观察12个月的表现表现,横轴则是继续再观察6个月后的表现表现。以第一列Gb Ind 12为B01的数据来说明,385件案例中经过6个月的表现表现100%仍是维持在B01的状态,显示其由坏转好的比例为0,可以确切认定其为坏(Bad)。然而,随着GB Ind 12的延滞程度趋缓,好坏区分会越来越难界定。例如,I16的305件案例中,有42件在6个月后会落入B01至B13的状态,转坏比例是13.77%。对于I16的客户究竟是列为好(Good)、坏(Bad)还是不确定(Indeterminate),则要视产品人员对此比例的容忍程度而定。
| 好坏定义指标 | 定义 |
|---|---|
| B01 | 转销呆账(逾滞超过 180 天) |
| B02 | 强制停用 |
| B03 | 内部债务协商 |
| B04 | 跨行协商 |
| B05 | 目前逾滞状态为 M4+ |
| B06 | 目前逾滞状态为 M3 |
| B07 | 目前逾滞状态为 M2 且过去 11 个月有 M3+ 记录 |
| B08 | 目前逾滞状态为 M1 且过去 11 个月有 M4+ 记录 |
| B09 | 目前缴款正常但过去 11 个月有 M4+ 记录 |
| B10 | 目前逾滞状态为 M2 且过去 11 个月有 M2 记录 |
| B11 | 目前逾滞状态为 M2 且过去 11 个月有 M2+ 记录 |
| B12 | 目前逾滞状态为 M1 且过去 11 个月有 M3 记录 |
| B13 | 目前逾滞状态为 M1 且过去 11 个月有 M2 记录 |
| I14 | 目前缴款正常但过去 11 个月有 M3 记录 |
| I15 | 目前逾滞状态为 M1 且过去 11 个月有 M1 记录 |
| I16 | 目前逾滞状态为 M1 且过去 11 个月无逾滞记录 |
| I17 | 目前缴款正常但过去 11 个月有 M2 记录 |
| G18 | 目前缴款正常但过去 11 个月有 M1 记录 |
| G19 | 目前缴款正常 |
4. 范例¶
请利用以下几个方面,决定此评分模型的表现期间(Outcome Period)。
如表2-3所示,各期间申请客户于核卡9个月后,坏件率增加减缓,并维持稳定态势。但需注意后期申请案件(2009年11月—2009年12月)其坏件比率有增加的趋势。
图2-2是利用总和坏件率观察客户核卡后的表现,发现9个月后的坏件率趋于平缓,由此可判定此样本的表现期间可定于9~12个月。然而,就一般实务建模经验与新巴塞尔资本协议针对内部风险因子的规范而言,建议以12个月为单位较为合适。


