YModel 智能建模与人工建模测试对比报告
Case 1
背景:某银行个人分期违约数据,预测个人用户违约概率
数据集:290 万行,37 列, 477MB
目标变量:是否违约
评估内容:
-
测试集上模型表现:AUC、前 10%Lift、模型衰减程度
-
建模时间
-
建模操作人员水平
测试结果:
- 模型表现
注:模型 1-12 为人工建模不断调试过程中形成的结果,YModel 模型是一次成型的。
结果说明:
1) 人工模型的前几名在训练集上的非常高,很明显为过拟合模型,经多次调整后,最终选择模型 12
2) 模型 12 在测试集上的 AUC 比 YModel 模型要高,但模型衰减要大很多,依然存在过拟合;YModel 模型的衰减程度很小,在未知数据上的表现会更好
3) 在测试集的提升度指标 YModel 建模要略高于人工建模
结论:人工建模和 YModel 建模指标接近,但 YModel 模型的泛化能力更好
- 建模时间
人工建模:手动预处理和调试模型约三周
YModel:自动预处理和建模共耗时 13 分钟
- 建模操作人员水平
人工建模:具备专业知识的高端人才
YModel:普通业务人员即可
Case 2
背景:银行小微企业信贷违约数据,预测企业客户违约概率
数据:36000 行,5500 列,453MB;样本维度很高,且稀疏数据多
目标变量:是否违约
对比内容:
-
测试集上模型表现:AUC、前 10%Lift 和模型衰减指标
-
建模时间
测试结果:
1) 在测试集上 YModel 建模 AUC 和 lift 均高于人工建模,且衰减程度小
2) YModel 建模时间短效率高,高维度数据也能处理好;人工建模时间周期长,高维度数据手动处理非常麻烦
Case 3
背景:保险公司客户理赔风险的预测
数据:138 万行,几十列,4G;数据中缺失值较多,且存在高基数分类变量
目标变量:是否发生理赔
对比内容:
-
测试集上的 Gini 指数
-
建模时间
测试结果:
1) YModel 在测试集上的 Gini 指数要高于人工建模
2) YModel 可自动处理数据缺失和高基数分类变量等情况,并且可自动产生衍生变量,建模效率远高于人工建模