跳转至

深入解析金融风控行为评分卡

原文地址: https://mp.weixin.qq.com/s/BI9BSMhPbjqSnydbY1WxUg

在信贷业务中,评分卡分为三种:申请评分卡(A卡)、行为评分卡(B卡)、催收评分卡(C卡),本篇我们来学习一下行为评分卡,首先什么是行为评分卡呢,行为评分卡的使用场景以及目的,适用的信贷产品有哪些?

1. 行为评分卡介绍

  • 定义:B卡是一种根据贷款人放贷后的表现行为,预测未来违约风险概率的模型。
  • 使用场景:B 卡用于贷款发放之后、到期之前的时间段,即“贷中”环节,其主要作用是监控贷款人在贷款结束之前的逾期违约风险,并在此基础上构建内部评级法中的 PD(Probability of Default)模型。
  • 使用目的:B 卡的主要目的是评估用户未来的违约风险,并 根据评估结果调整用户的信用额度和利率
  • 适用的信贷产品:B 卡适用于 还款周期长 的信贷产品,如房贷、车贷、某些信用现金贷,以及 循环授信类 的信贷产品,如信用卡、某些信用贷。注意,不宜用在先息后本的产品,因为这类产品每一期的风险都不同,最后一期的风险源高于之前的账期。
  • 观察期(Month of Book, MoB)与表现期:行为评分卡预测的是条件概率,构建和使用行为评分卡的两个时间段为观察期和表现期。观察期是当前以及过去一段时间内,用于搜集变量、特征的时间窗口,通常为 1 年或者半年以内;表现期是未来一段时间。
  • MoB:观察点 - 贷款发放日
  • 表现期不宜太短,否则失去预测的意义。
  • 表前期也不宜太长,因为 MOB 表现期没到的客群是不能被纳入,这也会导致
  • 特征构造:B 卡模型的特征构造包括还款率类型的特征、额度使用率类型的特征、逾期类型的特征等。
  • 模型构建:B 卡模型构建时会结合 A 卡的特征信息,以此训练出一个更全面反映用户信用状况的模型。
  • 适用客群:B 卡适用于老客户,即至少有一笔支用订单有三期还款表现的客户。
  • 模型功能:B 卡在风控领域中起着违约监控与额度管理的作用。此外,在巴塞尔模型里,内部评级法模型(Internal Rating Based Model)也非常依赖于行为评分卡。
  • 模型性能:B 卡模型性能一般显著高于 A 卡,金融机构在放款后能观察出客户逾期信息,如果客户在早期发生逾期,在之后也有逾期倾向,因此在观察期收集变量能让模型有较高 AUC。

通过这些功能和特点,B 卡能够帮助金融机构更动态地监控用户的违约风险,并适时调整用户的信用额度和利率。

2. 特征构造

特征类型 举例
还款相关 本月还款率(本月总还款额/上月末总欠款额)
额度相关 额度使用率(本月使用额度/授信总额度)
逾期相关 近 6 个月最大逾期天数;近 6 个月逾期超过 30/60/90 天的次数;近半年内月均逾期次数
消费相关 近 30 天内信用卡账户的总消费额
三方数据 社交、出行数据
征信数据 是否有过民事判决
  1. 特征的构造通常会叠加时间窗口,例如,近 1、3、6、9、12 个月。时间窗口不能太长,在保证大多数样本都能覆盖到的情况下;太短则会丢失信息。
  2. 三方数据通常对准确性和时效性要求较高,很多三方数据采用都是实时接口。

3. 特征处理与筛选

机器学习中经常采用 WOE 的方式对特征进行编码处理,并会采用如下规则进行特征挑选:

  • IV >= 0.02
  • 经过 WOE 编码后的特征,两两之间线性相关性 < 0.7。通常构建的特征会非常多,通常形成报告时只保留入模特征的相关性表现。
  • 经过 WOE 编码后的特征,共线性 < 10
  • 一些场景下,可能还会要求特征的 WOE 表现呈现严格的单调性。

如果你采用的是逻辑回归模型,那么训练后特征的系数应该均为正或负,如果存在正负系数的情况,通常是部分变量 WOE 不单调导致的。

此外,当一些变量的的 P 值并不显著,需要逐个拿这些变量与目标变量训练逻辑回归以验证其显著性。如果验证后变量的 P 值是显著的,则需要重新进行挑选。

4. 结合 GBDT 和 LASSO 模型进行挑选

4.1 GBDT 模型

通过训练 GBDT 模型,挑选 4 个最重要的变量,按照特征重要性逐个添加新的变量,当新加入的变量系数为正(假设系数为负)或者 P 值不显著时,则剔除该变量。否则,保留该变量。

4.2 LASSO 模型

在逻辑回归中添加 L1 约束(LASSO)挑选变量,寻找最优的惩罚因子,使得模型尽可能多地包含变量,且每个变量都显著。惩罚因子越大,则表明变量越稀疏。

5. 模型表现

通常评估模型的效果采用 KS 和 AUC指标:

数据集 KS AUC
训练集 0.8364 0.5962
测试集 0.8443 0.6494

6. 转换分数

得到样本的预测概率后,我们会采用如下公式将其转换成分数:

\[ \text{Score} = \text{BaseScore} + \frac{\text{PDO}} {\ln(2)} (-y) \]

其中,BaseScore 为基准分,PDO 为分差。根据业务实际情况,BaseScore 一般取值为 500,PDO 取值为 50。