定义模型的目标¶

原文地址: https://mp.weixin.qq.com/s/_S-oB4D90sZjBBL42lzEqg

模型上线两周，逾期率不降反升，业务部门天天来投诉。
KS值明明有0.4，为什么实际效果还不如规则引擎？
同样的模型，在A客群表现优异，换到B客群就彻底失灵。

这些场景，是不是似曾相识？先定业务，再定模型——你的Y标签定义对了吗？

1. 场景定位：模型是工具，业务是方向¶

同样一把手术刀，眼科医生和心脏外科医生的用法天差地别。风控模型也是如此，不同的业务场景，对模型的要求截然不同。

信贷审批模型：目标是“放对的人”，在通过率和逾期率之间寻找最优平衡。审批模型看的是“未来会不会坏”，需要较强的预测能力。
授信模型：解决“给多少额度”的问题。不仅要预测风险，还要结合客户价值、资金成本，实现风险定价。
贷中模型：存量客户的管理。行为评分卡（behavior score）监控客户风险变化，及时调额、降额或提前催收。
反欺诈模型：识别“这个人是不是骗子”。与信用风险不同，欺诈往往是团伙作案、手段迭代快，模型需要实时性、可解释性要求相对低，但对抗性要求高。
催收模型：逾期发生后，预测“哪个客户最可能还款”，从而分配催收资源（电话、短信、委外等）。模型的输出是催收响应概率。
商户风控模型：面向B端，关注交易真实性、洗钱风险、套现嫌疑等，需要结合交易行为、商户画像等多维数据。

案例

某平台最初想用一个通用模型同时解决审批和授信问题，结果两头不讨好——审批环节通过率太低，授信环节额度不准。后来拆分为两个模型：审批模型以“6个月内是否逾期30+天”为Y，授信模型引入收入预测和额度使用率特征，最终通过率提升18%，逾期率反而下降5个百分点。这就是场景拆分的价值。

2. 指标定义：Y标签——模型的灵魂¶

模型是监督学习，Y标签定义模型学什么。Y定错了，再高级的算法也是缘木求鱼。

Y标签定义

逾期定义：如何定义 M1、M3、M6 与 bad=1 的关系？

逾期指标通常以逾期天数划分：

M1：逾期1-30天（早期逾期，可能是遗忘或临时周转）
M2：逾期31-60天
M3：逾期61-90天
M4-M6：以此类推

在风控建模中，我们通常将某个逾期状态定义为“坏客户”（bad=1）。常见做法：

保守派：以M3+（逾期超过90天）为坏。理由：逾期90天以上客户大概率不还，样本相对纯净。
激进派：以M1+为坏。理由：早期逾期客户催回成本高，且机构风险偏好低。
折中派：以M2+为坏，兼顾样本量与纯净度。

关键决策：Y定义需要结合业务容忍度、催收回款率、样本量等因素。例如，某消费金融公司初期以M3+为坏，但发现坏样本太少（<1%），模型几乎学不到东西。后调整为M2+为坏，样本量增加到3%，模型效果显著提升。同时，他们保留了M1作为“不确定样本”，在建模时剔除或单独处理。

案例：某银行信用卡中心在做行为评分卡时，将“未来12个月内出现M3+”定义为坏，观察期为申请时点前6个月，表现期为12个月。这样定义既保证了样本量充足，又给了足够的时间窗口让风险暴露。

3. 窗口期：时间维度的魔法¶

模型不是静态的，而是时间维度上的预测。观察期和表现期的设定，决定了模型看到的是什么，预测的是什么。

观察期（Observation Window）：用来提取特征的时间段，通常是申请时点前3-12个月。
表现期（Performance Window）：用来定义Y标签的时间段，通常是申请时点后6-24个月。

3.1 常见误区¶

观察期太短：无法捕捉客户长期行为特征，如还款习惯变化。
表现期太短：风险还没充分暴露，大量“坏客户”被误标为“好”。
观察期与表现期重叠：数据泄露，模型过拟合。

案例：某助贷平台开发申请评分卡，将观察期设为申请前3个月，表现期设为申请后3个月。结果模型上线后半年，逾期率开始飙升。复盘发现，很多客户在申请时看似正常，但3个月后资金链断裂，而3个月的表现期不足以捕捉这种风险。他们将表现期延长至12个月后，模型KS从0.32提升到0.41，后续表现稳定。

3.2 如何选择窗口？¶

客群周转速度：短期现金贷，表现期3-6个月足够；大额分期，可能需要12-24个月。
业务需求：快速迭代产品可适当缩短表现期，但需配合后续监控。
数据积累：新业务数据少，可先用短期表现期，后续再调整。

4. 业务约束：模型不是孤岛¶

模型要在真实业务环境中运行，就必须考虑一系列约束条件。这些约束往往比模型精度更重要。

通过率（Approval Rate）：业务部门有业绩压力，模型通过率太低，业务量完不成。需在模型设计时设定目标通过率（如60%），并调整阈值。
覆盖率（Coverage）：模型可能只覆盖部分客群（如有征信报告的客户），对无数据客群需规则兜底。覆盖率影响模型的应用范围。
成本：
数据成本：引入外部征信数据需付费，需平衡成本与模型增益。
计算成本：复杂模型需要更多算力，可能影响实时决策速度。
人力成本：模型监控、迭代需要团队投入。
合规：
可解释性：监管要求模型决策可解释，黑箱模型可能被叫停。
公平性：模型不能对特定人群（如性别、地域）有歧视，需进行公平性测试。
数据隐私：合规使用数据，避免敏感字段。
客群差异：不同渠道、不同产品、不同地区的客群风险特征不同。一个模型打天下往往行不通，需要细分客群建模或进行模型校准。

案例

某城商行开发一款线上信贷产品，初期用统一模型审批。结果发现一线城市客群逾期率低，但通过率也低；而三线城市客群通过率高，逾期率却高。分析发现，一线城市客户收入高但多头借贷严重，三线城市客户收入低但还款意愿强。团队最终按城市等级分两个模型，分别调整特征权重和阈值，整体通过率提升15%，逾期率下降8%。

5. 需求定义清单：动手建模前必问的10个问题¶

在开始特征工程和算法调参之前，请先和业务方、产品经理、合规团队坐在一起，回答以下问题：

我们要解决什么业务问题？（审批/授信/反欺诈/催收？）
谁是目标客群？他们的特点是什么？
好客户和坏客户如何定义？用什么逾期口径？（M1/M2/M3？）
观察期和表现期分别多长？为什么？
当前通过率和坏账率是多少？目标是多少？
模型将如何嵌入业务流程？决策点是自动还是人工？
可用数据有哪些？质量如何？有无合规风险？
是否有客群细分需求？需要多个模型吗？
模型可解释性要求多高？监管关注点是什么？
模型迭代周期多长？谁负责监控和重训？

6. 总结：模型成功的起点不在代码，而在会议室¶

很多团队急着跑代码、调参数，却忽略了建模前最关键的需求定义环节。殊不知，这一步走偏，后面所有努力都是南辕北辙。

先定业务，再定模型——这不仅是方法论，更是无数真金白银换来的教训。下次启动模型项目时，不妨把更多时间花在定义Y、划定窗口、厘清约束上。你会发现，模型上线后的表现会更稳，业务方的满意度也会更高。

毕竟，最好的模型，是能解决真实业务问题的模型。