YModel 智能建模与人工建模测试对比报告

Case 1

背景:某银行个人分期违约数据,预测个人用户违约概率

数据集:290 万行,37 列, 477MB

目标变量:是否违约

评估内容:

  1. 测试集上模型表现:AUC、前 10%Lift、模型衰减程度

  2. 建模时间

  3. 建模操作人员水平

测试结果:

  1. 模型表现

注:模型 1-12 为人工建模不断调试过程中形成的结果,YModel 模型是一次成型的。

结果说明:

1) 人工模型的前几名在训练集上的非常高,很明显为过拟合模型,经多次调整后,最终选择模型 12

2) 模型 12 在测试集上的 AUC 比 YModel 模型要高,但模型衰减要大很多,依然存在过拟合;YModel 模型的衰减程度很小,在未知数据上的表现会更好

3) 在测试集的提升度指标 YModel 建模要略高于人工建模

结论:人工建模和 YModel 建模指标接近,但 YModel 模型的泛化能力更好

  1. 建模时间

人工建模:手动预处理和调试模型约三周

YModel:自动预处理和建模共耗时 13 分钟

  1. 建模操作人员水平

人工建模:具备专业知识的高端人才

YModel:普通业务人员即可

Case 2

背景:银行小微企业信贷违约数据,预测企业客户违约概率

数据:36000 行,5500 列,453MB;样本维度很高,且稀疏数据多

目标变量:是否违约

对比内容:

  1. 测试集上模型表现:AUC、前 10%Lift 和模型衰减指标

  2. 建模时间

测试结果:

1) 在测试集上 YModel 建模 AUC 和 lift 均高于人工建模,且衰减程度小

2) YModel 建模时间短效率高,高维度数据也能处理好;人工建模时间周期长,高维度数据手动处理非常麻烦

Case 3

背景:保险公司客户理赔风险的预测

数据:138 万行,几十列,4G;数据中缺失值较多,且存在高基数分类变量

目标变量:是否发生理赔

对比内容:

  1. 测试集上的 Gini 指数

  2. 建模时间

测试结果:

1) YModel 在测试集上的 Gini 指数要高于人工建模

2) YModel 可自动处理数据缺失和高基数分类变量等情况,并且可自动产生衍生变量,建模效率远高于人工建模