定义模型的目标¶
- 模型上线两周,逾期率不降反升,业务部门天天来投诉。
- KS值明明有0.4,为什么实际效果还不如规则引擎?
- 同样的模型,在A客群表现优异,换到B客群就彻底失灵。
这些场景,是不是似曾相识?先定业务,再定模型——你的Y标签定义对了吗?
1. 场景定位:模型是工具,业务是方向¶
同样一把手术刀,眼科医生和心脏外科医生的用法天差地别。风控模型也是如此,不同的业务场景,对模型的要求截然不同。
- 信贷审批模型:目标是“放对的人”,在通过率和逾期率之间寻找最优平衡。审批模型看的是“未来会不会坏”,需要较强的预测能力。
- 授信模型:解决“给多少额度”的问题。不仅要预测风险,还要结合客户价值、资金成本,实现风险定价。
- 贷中模型:存量客户的管理。行为评分卡(behavior score)监控客户风险变化,及时调额、降额或提前催收。
- 反欺诈模型:识别“这个人是不是骗子”。与信用风险不同,欺诈往往是团伙作案、手段迭代快,模型需要实时性、可解释性要求相对低,但对抗性要求高。
- 催收模型:逾期发生后,预测“哪个客户最可能还款”,从而分配催收资源(电话、短信、委外等)。模型的输出是催收响应概率。
- 商户风控模型:面向B端,关注交易真实性、洗钱风险、套现嫌疑等,需要结合交易行为、商户画像等多维数据。
案例
某平台最初想用一个通用模型同时解决审批和授信问题,结果两头不讨好——审批环节通过率太低,授信环节额度不准。后来拆分为两个模型:审批模型以“6个月内是否逾期30+天”为Y,授信模型引入收入预测和额度使用率特征,最终通过率提升18%,逾期率反而下降5个百分点。这就是场景拆分的价值。
2. 指标定义:Y标签——模型的灵魂¶
模型是监督学习,Y标签定义模型学什么。Y定错了,再高级的算法也是缘木求鱼。
Y标签定义
逾期定义:如何定义 M1、M3、M6 与 bad=1 的关系?
逾期指标通常以逾期天数划分:
- M1:逾期1-30天(早期逾期,可能是遗忘或临时周转)
- M2:逾期31-60天
- M3:逾期61-90天
- M4-M6:以此类推
在风控建模中,我们通常将某个逾期状态定义为“坏客户”(bad=1)。常见做法:
- 保守派:以M3+(逾期超过90天)为坏。理由:逾期90天以上客户大概率不还,样本相对纯净。
- 激进派:以M1+为坏。理由:早期逾期客户催回成本高,且机构风险偏好低。
- 折中派:以M2+为坏,兼顾样本量与纯净度。
关键决策:Y定义需要结合业务容忍度、催收回款率、样本量等因素。例如,某消费金融公司初期以M3+为坏,但发现坏样本太少(<1%),模型几乎学不到东西。后调整为M2+为坏,样本量增加到3%,模型效果显著提升。同时,他们保留了M1作为“不确定样本”,在建模时剔除或单独处理。
案例:某银行信用卡中心在做行为评分卡时,将“未来12个月内出现M3+”定义为坏,观察期为申请时点前6个月,表现期为12个月。这样定义既保证了样本量充足,又给了足够的时间窗口让风险暴露。
3. 窗口期:时间维度的魔法¶
模型不是静态的,而是时间维度上的预测。观察期和表现期的设定,决定了模型看到的是什么,预测的是什么。
- 观察期(Observation Window):用来提取特征的时间段,通常是申请时点前3-12个月。
- 表现期(Performance Window):用来定义Y标签的时间段,通常是申请时点后6-24个月。
3.1 常见误区¶
- 观察期太短:无法捕捉客户长期行为特征,如还款习惯变化。
- 表现期太短:风险还没充分暴露,大量“坏客户”被误标为“好”。
- 观察期与表现期重叠:数据泄露,模型过拟合。
案例:某助贷平台开发申请评分卡,将观察期设为申请前3个月,表现期设为申请后3个月。结果模型上线后半年,逾期率开始飙升。复盘发现,很多客户在申请时看似正常,但3个月后资金链断裂,而3个月的表现期不足以捕捉这种风险。他们将表现期延长至12个月后,模型KS从0.32提升到0.41,后续表现稳定。
3.2 如何选择窗口?¶
- 客群周转速度:短期现金贷,表现期3-6个月足够;大额分期,可能需要12-24个月。
- 业务需求:快速迭代产品可适当缩短表现期,但需配合后续监控。
- 数据积累:新业务数据少,可先用短期表现期,后续再调整。
4. 业务约束:模型不是孤岛¶
模型要在真实业务环境中运行,就必须考虑一系列约束条件。这些约束往往比模型精度更重要。
- 通过率(Approval Rate):业务部门有业绩压力,模型通过率太低,业务量完不成。需在模型设计时设定目标通过率(如60%),并调整阈值。
- 覆盖率(Coverage):模型可能只覆盖部分客群(如有征信报告的客户),对无数据客群需规则兜底。覆盖率影响模型的应用范围。
- 成本:
- 数据成本:引入外部征信数据需付费,需平衡成本与模型增益。
- 计算成本:复杂模型需要更多算力,可能影响实时决策速度。
- 人力成本:模型监控、迭代需要团队投入。
- 合规:
- 可解释性:监管要求模型决策可解释,黑箱模型可能被叫停。
- 公平性:模型不能对特定人群(如性别、地域)有歧视,需进行公平性测试。
- 数据隐私:合规使用数据,避免敏感字段。
- 客群差异:不同渠道、不同产品、不同地区的客群风险特征不同。一个模型打天下往往行不通,需要细分客群建模或进行模型校准。
案例
某城商行开发一款线上信贷产品,初期用统一模型审批。结果发现一线城市客群逾期率低,但通过率也低;而三线城市客群通过率高,逾期率却高。分析发现,一线城市客户收入高但多头借贷严重,三线城市客户收入低但还款意愿强。团队最终按城市等级分两个模型,分别调整特征权重和阈值,整体通过率提升15%,逾期率下降8%。
5. 需求定义清单:动手建模前必问的10个问题¶
在开始特征工程和算法调参之前,请先和业务方、产品经理、合规团队坐在一起,回答以下问题:
- 我们要解决什么业务问题?(审批/授信/反欺诈/催收?)
- 谁是目标客群?他们的特点是什么?
- 好客户和坏客户如何定义?用什么逾期口径?(M1/M2/M3?)
- 观察期和表现期分别多长?为什么?
- 当前通过率和坏账率是多少?目标是多少?
- 模型将如何嵌入业务流程?决策点是自动还是人工?
- 可用数据有哪些?质量如何?有无合规风险?
- 是否有客群细分需求?需要多个模型吗?
- 模型可解释性要求多高?监管关注点是什么?
- 模型迭代周期多长?谁负责监控和重训?
6. 总结:模型成功的起点不在代码,而在会议室¶
很多团队急着跑代码、调参数,却忽略了建模前最关键的需求定义环节。殊不知,这一步走偏,后面所有努力都是南辕北辙。
先定业务,再定模型——这不仅是方法论,更是无数真金白银换来的教训。下次启动模型项目时,不妨把更多时间花在定义Y、划定窗口、厘清约束上。你会发现,模型上线后的表现会更稳,业务方的满意度也会更高。
毕竟,最好的模型,是能解决真实业务问题的模型。