跳转至

第3章:分组(Segmentation)目的与分析选择

3.1 分组目的

将目标客群利用组内差异小、组间差异大的特性,切割成不同的群集,并针对个别分组开发适用的评分模型。一般采取分组(Segmentation)的主要原因是:有些单一变量虽对整体客群有鉴别力,但不一定对特定客群也具有鉴别力。举例来说,对申请评分模型而言,​“年龄”这个变量在判定表现指针上具有一定程度的鉴别力,但若将申请样本按照收入分成“高收入分组”与“低收入分组”​,如图3-1所示,可看出坏件率(Bad%)在高收入分组中,各年龄区间的差异并不显著。

图3-1: 单一变量与不同分组的坏件率表现

因此,若能善用分组,将可替每个分组找出适合它的变量与模型,进而大幅提升整体模型的鉴别力。但另外需提醒一点,经过分组而进行开发的模型,必须在稍后阶段进行风险校准(Calibration)​,将各分组评分结果所代表的风险程度一致化,在第八章将会有专门的介绍。

3.2 分组分析

分组分析的主要目的在于寻找一个适当的母体分组方式,将合格样本区分至各个分组后,分别开发各自的评分模型。分组分析主要可采取以下两种方式。

3.2.1 业务需求(Business Sense)

业务需求是依照实际业务作业流程或历史经验法则先行找出可能的分组方式,之后再由统计分析结果验证是否是有意义的分组。

在提出或决定潜在分组因子前,模型开发人员首先需检视评分模型的开发目的,才能确切比对相关业务经验。以信用卡行为评分模型为例,若模型本身的开发目的是执行风险区隔,依照一般经验,客户延滞与无延滞是相当有力的分组方式;若行为评分开发的目的着重于营销跨售机会,则全清户与循环使用户在业务机会点上也有显著差异。

3.2.2 统计预测力(Predictive Power)

统计预测力是纯粹利用统计分析模块进行[如决策树(DecisionTree)及聚类分析(Cluster Analysis)等]的,借此找出对表现指标有预测意义的分组变量。

另外,分组方式的决定往往不能偏向于上述两种方式,一个理想的分组最好能同时满足实务面与统计面的分析结果。

以下综合统计数量与实务观点概略说明了分组方式需符合的条件:

  1. 利用统计分析初步筛选具备预测力的分组变量,再借由以下过程决定该变量的分组结果是否合乎统计与实务面的要求。
  2. 各分组均涵盖足够多的样本数进行模型开发。
  3. 分组间好坏比值​(Good/Bad Odds)使各分组间具有显著差异。
  4. 分组间变量风险轮廓(Risk Profile)具有显著差异。

!!! note "好坏比值(Good/Bad Odds定义)"​

样本中以Good样本数作为分母,Bad作为分子,两者相除所得比例。

以表3-1为例,无延滞(Not Delinguent)与延滞(Delinquent)两个分组在额度使用率(Utilization-Rate)各区间显示好坏比值有明显差别,可给予不同分数。

整体 无延滞分组 延滞分组
额度使用率区间 好坏对比值 好坏对比值 好坏对比值
0 313G 237G 387G
1~10 824G 733G 710G
11~25 272G 232G 364G
26~40 101B 128B 205G
41~50 165B 210B 136G
51~65 243B 298B 106B
66~80 336B 382B 155B
81~100 564B 620B 252B
101+ 937B 763B 376B
其他 N.A. N.A. N.A.
加总 100B 100B 100B

G/B Index计算方式:若区间好坏比优于整体开发样本,则G/B Index =(Interval 好坏比/Overall 好坏比)×100G;若区间好坏比低于整体开发样本,则G/B Index= (Overall 好坏比/Interval 好坏比)×100B。

3.2.3 符合业务需求考虑

现以开发信用卡行为评分模型为例说明分组架构。如图3-2所示,左边往来期间不足5个月者予以排除,因无足够期间的账户历史数据作为自变量来源;右边延滞客群适用催收评分模型,故不予纳入;其他信用卡目前没有延滞的客户则是我们的主要目标客群,业务与统计实证皆指出全清户(Transactor)与循环使用户 (Revolver)在风险程度与风险形态上均有显著差异,故选择以客户“是否使用循环”作为主要分组方式。

图3-2: 分组架构

3.3 范例

表3-2将利用额度使用率这一变量比较“无延滞客群”与“延滞客群”两个分组的表现,借以判定该分组方式合适与否。

表3-2:分组比较

3.3.1 比较点三(Point 3)​:风险轮廓(Risk Profile)

在此范例中,我们利用额度使用率来比较两分组的风险轮廓是否有显著不同。以变量值26~40为例,无延滞分组显示此类客户表现较平均差1.28倍,而延滞客群则显示此类客户表现为优于平均2.05倍。依此风险轮廓显示,效率使用率变量在两个分组模型中可产出不同分数,我们可依此逻辑全盘检视其他变量在此两分组的差异性是否相同。

3.3.2 比较点四(Point 4)​:客户分布(Customer Distribution)

我们再观察一下同一变量在两个分组中是否有着不同的户数分布。在额度使用率的例子中,无延滞客群有超过70%集中在使用率≤25的区间,然而,延滞客群中只有约35%落于此区间中,绝大多数的延滞客户有偏高的使用率。读者可依上述各项比较点,逐一检视潜在分组变量,观察其是否符合评分模型分组的意义。