深入解析金融风控行为评分卡¶

原文地址: https://mp.weixin.qq.com/s/BI9BSMhPbjqSnydbY1WxUg

在信贷业务中，评分卡分为三种：申请评分卡（A卡）、行为评分卡（B卡）、催收评分卡（C卡），本篇我们来学习一下行为评分卡，首先什么是行为评分卡呢，行为评分卡的使用场景以及目的，适用的信贷产品有哪些？

1. 行为评分卡介绍¶

定义：B卡是一种根据贷款人放贷后的表现行为，预测未来违约风险概率的模型。
使用场景：B 卡用于贷款发放之后、到期之前的时间段，即“贷中”环节，其主要作用是监控贷款人在贷款结束之前的逾期违约风险，并在此基础上构建内部评级法中的 PD（Probability of Default）模型。
使用目的：B 卡的主要目的是评估用户未来的违约风险，并根据评估结果调整用户的信用额度和利率。
适用的信贷产品：B 卡适用于还款周期长的信贷产品，如房贷、车贷、某些信用现金贷，以及循环授信类的信贷产品，如信用卡、某些信用贷。注意，不宜用在先息后本的产品，因为这类产品每一期的风险都不同，最后一期的风险源高于之前的账期。
观察期（Month of Book, MoB）与表现期：行为评分卡预测的是条件概率，构建和使用行为评分卡的两个时间段为观察期和表现期。观察期是当前以及过去一段时间内，用于搜集变量、特征的时间窗口，通常为 1 年或者半年以内；表现期是未来一段时间。
MoB：观察点 - 贷款发放日
表现期不宜太短，否则失去预测的意义。
表前期也不宜太长，因为 MOB 表现期没到的客群是不能被纳入，这也会导致
特征构造：B 卡模型的特征构造包括还款率类型的特征、额度使用率类型的特征、逾期类型的特征等。
模型构建：B 卡模型构建时会结合 A 卡的特征信息，以此训练出一个更全面反映用户信用状况的模型。
适用客群：B 卡适用于老客户，即至少有一笔支用订单有三期还款表现的客户。
模型功能：B 卡在风控领域中起着违约监控与额度管理的作用。此外，在巴塞尔模型里，内部评级法模型（Internal Rating Based Model）也非常依赖于行为评分卡。
模型性能：B 卡模型性能一般显著高于 A 卡，金融机构在放款后能观察出客户逾期信息，如果客户在早期发生逾期，在之后也有逾期倾向，因此在观察期收集变量能让模型有较高 AUC。

通过这些功能和特点，B 卡能够帮助金融机构更动态地监控用户的违约风险，并适时调整用户的信用额度和利率。

2. 特征构造¶

特征类型	举例
还款相关	本月还款率（本月总还款额/上月末总欠款额）
额度相关	额度使用率（本月使用额度/授信总额度）
逾期相关	近 6 个月最大逾期天数；近 6 个月逾期超过 30/60/90 天的次数；近半年内月均逾期次数
消费相关	近 30 天内信用卡账户的总消费额
三方数据	社交、出行数据
征信数据	是否有过民事判决

特征的构造通常会叠加时间窗口，例如，近 1、3、6、9、12 个月。时间窗口不能太长，在保证大多数样本都能覆盖到的情况下；太短则会丢失信息。

三方数据通常对准确性和时效性要求较高，很多三方数据采用都是实时接口。

3. 特征处理与筛选¶

机器学习中经常采用 WOE 的方式对特征进行编码处理，并会采用如下规则进行特征挑选：

IV >= 0.02
经过 WOE 编码后的特征，两两之间线性相关性 < 0.7。通常构建的特征会非常多，通常形成报告时只保留入模特征的相关性表现。
经过 WOE 编码后的特征，共线性 < 10
一些场景下，可能还会要求特征的 WOE 表现呈现严格的单调性。

如果你采用的是逻辑回归模型，那么训练后特征的系数应该均为正或负，如果存在正负系数的情况，通常是部分变量 WOE 不单调导致的。

此外，当一些变量的的 P 值并不显著，需要逐个拿这些变量与目标变量训练逻辑回归以验证其显著性。如果验证后变量的 P 值是显著的，则需要重新进行挑选。

4. 结合 GBDT 和 LASSO 模型进行挑选¶

4.1 GBDT 模型¶

通过训练 GBDT 模型，挑选 4 个最重要的变量，按照特征重要性逐个添加新的变量，当新加入的变量系数为正（假设系数为负）或者 P 值不显著时，则剔除该变量。否则，保留该变量。

4.2 LASSO 模型¶

在逻辑回归中添加 L1 约束（LASSO）挑选变量，寻找最优的惩罚因子，使得模型尽可能多地包含变量，且每个变量都显著。惩罚因子越大，则表明变量越稀疏。

5. 模型表现¶

通常评估模型的效果采用 KS 和 AUC指标：

数据集	KS	AUC
训练集	0.8364	0.5962
测试集	0.8443	0.6494

6. 转换分数¶

得到样本的预测概率后，我们会采用如下公式将其转换成分数：

\[ \text{Score} = \text{BaseScore} + \frac{\text{PDO}} {\ln(2)} (-y) \]

其中，BaseScore 为基准分，PDO 为分差。根据业务实际情况，BaseScore 一般取值为 500，PDO 取值为 50。