"Case 1 背景：某银行个人分期违约数据，预测个人用户违约概率数据集：290 万行，37 列， 477MB 目标变量：是否违约评估内容：测试集上模型表现：AUC、前 10%Lift、模 .."

jiangzhucao 北京
乾学院 1061 号会员
1,683 浏览 • 4 年前

YModel 智能建模与人工建模测试对比报告

计算＆AI

Case 1

背景：某银行个人分期违约数据，预测个人用户违约概率

数据集：290 万行，37 列， 477MB

目标变量：是否违约

评估内容：

测试结果：

注：模型 1-12 为人工建模不断调试过程中形成的结果，YModel 模型是一次成型的。

结果说明：

1) 人工模型的前几名在训练集上的非常高，很明显为过拟合模型，经多次调整后，最终选择模型 12

2) 模型 12 在测试集上的 AUC 比 YModel 模型要高，但模型衰减要大很多，依然存在过拟合；YModel 模型的衰减程度很小，在未知数据上的表现会更好

3) 在测试集的提升度指标 YModel 建模要略高于人工建模

结论：人工建模和 YModel 建模指标接近，但 YModel 模型的泛化能力更好

人工建模：手动预处理和调试模型约三周

YModel：自动预处理和建模共耗时 13 分钟

人工建模：具备专业知识的高端人才

YModel：普通业务人员即可

背景：银行小微企业信贷违约数据，预测企业客户违约概率

数据：36000 行，5500 列，453MB；样本维度很高，且稀疏数据多

目标变量：是否违约

对比内容：

测试结果：

1) 在测试集上 YModel 建模 AUC 和 lift 均高于人工建模，且衰减程度小

2) YModel 建模时间短效率高，高维度数据也能处理好；人工建模时间周期长，高维度数据手动处理非常麻烦

背景：保险公司客户理赔风险的预测

数据：138 万行，几十列，4G；数据中缺失值较多，且存在高基数分类变量

目标变量：是否发生理赔

对比内容：

测试结果：

1) YModel 在测试集上的 Gini 指数要高于人工建模

2) YModel 可自动处理数据缺失和高基数分类变量等情况，并且可自动产生衍生变量，建模效率远高于人工建模