Ymodel-Weka-Rapidminer 自动建模效果对比

目标:对比WekaRapidminerYmodel的自动建模效果

数据情况:5份数据,3份分类,2份回归

2Kaggle经典案例,3份真实业务数据

泰坦尼克数据 分类 Kaggle
房价预测 回归 Kaggle
信贷公司用户逾期预测 分类
保险公司保单是否发生理赔预测 分类
二手车交易价格预测 回归

由于Rapidminer免费版数据量限制1万条,因此对3份真实业务数据进行了抽样,样本量都控制在几千的级别。无法进行大数据量的测试。

产品情况:Weka为开源的,自动建模功能属于Weka的一个扩展模块,免费使用。Rapidminer属商业软件,虽有免费版本,但自动建模功能要收费。

整体使用体验:Ymodel建模速度最快。Rapidminer也还可以,当变量较多时,建模时间大幅增加。Weka建模要自己设定建模时间,建模速度也比较慢,并且在Weka中有时还需要手动处理一些变量类型,才能被自动建模识别。就自动建模功能来说,Weka的体验要相对差一些。

测试方法:所有的数据分为训练集和预测集,将预测结果导出后统一打分

测试结果:

1.泰坦尼克生存预测-分类

训练数据802条,12个变量

阳性样本和阴性样本比例大约35


Weka Rapidminer Ymodel
Accuracy 0.722 0.787 0.775
Precision 0.862 0.809 0.857
Recall 0.556 0.756 0.667
Specificity 0.909 0.818 0.886
F1 0.676 0.782 0.75
AUC
0.793 0.847
排名 3 2 1

Weka中无法输出概率值(也有可能是没找到怎么输出),因此无法计算AUC

2.房价预测-回归


Weka Rapidminer Ymodel
mse 4.17E8 1.41E9 9.85E8
rmse 20430 37539 31385
mae 14164 19459 16378
mape 9.108 11.317 9.921
R2 0.889 0.755 0.829
排名 1 3 2

3.信贷公司用户逾期预测-分类

训练数据8938条,56个变量

阳性样本和阴性样本比例大约18


Weka Rapidminer Ymodel
Accuracy 0.878 0.880 0.804
Precision - 0.471 0.281
Recall 0 0.063 0.409
Specificity 1 0.99 0.858
F1 - 0.111 0.333
AUC
0.729 0.742
排名 3 2 1

在该数据上,Weka模型是失败的,没有抓到任何阳性样本

4.保险公司保单是否发生理赔预测-分类

训练数据3470条,29个变量

阳性样本和阴性样本比例大约17


Weka Rapidminer Ymodel
Accuracy 0.905 0.949 0.882
Precision 0.051 0.033 0.022
Recall 0.264 0.069 0.139
Specificity 0.916 0.965 0.895
F1 0.086 0.045 0.038
AUC
0.642 0.638
排名 1 2 3

5.二手车交易价格预测


Weka Rapidminer Ymodel
mse 2779927 8466716 9429967
rmse 1667 2910 3070
mae 835 1580 1537
mape 27 75 54
R2 0.941 0.821 0.801
排名 1 2 3

综合评价:在本次测试的5份数据中,不同的数据上排名各不相同,但指标差距都不大,Ymodel整体表现都还不错。三者比较而言,Weka回归模型效果好,Ymodel分类模型好,Rapidminer居中