深入解析金融风控行为评分卡¶
在信贷业务中,评分卡分为三种:申请评分卡(A卡)、行为评分卡(B卡)、催收评分卡(C卡),本篇我们来学习一下行为评分卡,首先什么是行为评分卡呢,行为评分卡的使用场景以及目的,适用的信贷产品有哪些?
1. 行为评分卡介绍¶
- 定义:B卡是一种根据贷款人放贷后的表现行为,预测未来违约风险概率的模型。
- 使用场景:B 卡用于贷款发放之后、到期之前的时间段,即“贷中”环节,其主要作用是监控贷款人在贷款结束之前的逾期违约风险,并在此基础上构建内部评级法中的 PD(Probability of Default)模型。
- 使用目的:B 卡的主要目的是评估用户未来的违约风险,并 根据评估结果调整用户的信用额度和利率。
- 适用的信贷产品:B 卡适用于 还款周期长 的信贷产品,如房贷、车贷、某些信用现金贷,以及 循环授信类 的信贷产品,如信用卡、某些信用贷。注意,不宜用在先息后本的产品,因为这类产品每一期的风险都不同,最后一期的风险源高于之前的账期。
- 观察期(Month of Book, MoB)与表现期:行为评分卡预测的是条件概率,构建和使用行为评分卡的两个时间段为观察期和表现期。观察期是当前以及过去一段时间内,用于搜集变量、特征的时间窗口,通常为 1 年或者半年以内;表现期是未来一段时间。
- MoB:观察点 - 贷款发放日
- 表现期不宜太短,否则失去预测的意义。
- 表前期也不宜太长,因为 MOB 表现期没到的客群是不能被纳入,这也会导致
- 特征构造:B 卡模型的特征构造包括还款率类型的特征、额度使用率类型的特征、逾期类型的特征等。
- 模型构建:B 卡模型构建时会结合 A 卡的特征信息,以此训练出一个更全面反映用户信用状况的模型。
- 适用客群:B 卡适用于老客户,即至少有一笔支用订单有三期还款表现的客户。
- 模型功能:B 卡在风控领域中起着违约监控与额度管理的作用。此外,在巴塞尔模型里,内部评级法模型(Internal Rating Based Model)也非常依赖于行为评分卡。
- 模型性能:B 卡模型性能一般显著高于 A 卡,金融机构在放款后能观察出客户逾期信息,如果客户在早期发生逾期,在之后也有逾期倾向,因此在观察期收集变量能让模型有较高 AUC。
通过这些功能和特点,B 卡能够帮助金融机构更动态地监控用户的违约风险,并适时调整用户的信用额度和利率。
2. 特征构造¶
特征类型 | 举例 |
---|---|
还款相关 | 本月还款率(本月总还款额/上月末总欠款额) |
额度相关 | 额度使用率(本月使用额度/授信总额度) |
逾期相关 | 近 6 个月最大逾期天数;近 6 个月逾期超过 30/60/90 天的次数;近半年内月均逾期次数 |
消费相关 | 近 30 天内信用卡账户的总消费额 |
三方数据 | 社交、出行数据 |
征信数据 | 是否有过民事判决 |
- 特征的构造通常会叠加时间窗口,例如,近 1、3、6、9、12 个月。时间窗口不能太长,在保证大多数样本都能覆盖到的情况下;太短则会丢失信息。
- 三方数据通常对准确性和时效性要求较高,很多三方数据采用都是实时接口。
3. 特征处理与筛选¶
机器学习中经常采用 WOE 的方式对特征进行编码处理,并会采用如下规则进行特征挑选:
- IV >= 0.02
- 经过 WOE 编码后的特征,两两之间线性相关性 < 0.7。通常构建的特征会非常多,通常形成报告时只保留入模特征的相关性表现。
- 经过 WOE 编码后的特征,共线性 < 10
- 一些场景下,可能还会要求特征的 WOE 表现呈现严格的单调性。
如果你采用的是逻辑回归模型,那么训练后特征的系数应该均为正或负,如果存在正负系数的情况,通常是部分变量 WOE 不单调导致的。
此外,当一些变量的的 P 值并不显著,需要逐个拿这些变量与目标变量训练逻辑回归以验证其显著性。如果验证后变量的 P 值是显著的,则需要重新进行挑选。
4. 结合 GBDT 和 LASSO 模型进行挑选¶
4.1 GBDT 模型¶
通过训练 GBDT 模型,挑选 4 个最重要的变量,按照特征重要性逐个添加新的变量,当新加入的变量系数为正(假设系数为负)或者 P 值不显著时,则剔除该变量。否则,保留该变量。
4.2 LASSO 模型¶
在逻辑回归中添加 L1 约束(LASSO)挑选变量,寻找最优的惩罚因子,使得模型尽可能多地包含变量,且每个变量都显著。惩罚因子越大,则表明变量越稀疏。
5. 模型表现¶
通常评估模型的效果采用 KS 和 AUC指标:
数据集 | KS | AUC |
---|---|---|
训练集 | 0.8364 | 0.5962 |
测试集 | 0.8443 | 0.6494 |
6. 转换分数¶
得到样本的预测概率后,我们会采用如下公式将其转换成分数:
\[ \text{Score} = \text{BaseScore} + \frac{\text{PDO}} {\ln(2)} (-y) \]
其中,BaseScore 为基准分,PDO 为分差。根据业务实际情况,BaseScore 一般取值为 500,PDO 取值为 50。