Ymodel-Weka-Rapidminer 自动建模效果对比
目标:对比Weka,Rapidminer,Ymodel的自动建模效果
数据情况:共5份数据,3份分类,2份回归
2份Kaggle经典案例,3份真实业务数据
泰坦尼克数据 |
分类 Kaggle |
房价预测 |
回归 Kaggle |
信贷公司用户逾期预测 |
分类 |
保险公司保单是否发生理赔预测 |
分类 |
二手车交易价格预测 |
回归 |
由于Rapidminer免费版数据量限制1万条,因此对3份真实业务数据进行了抽样,样本量都控制在几千的级别。无法进行大数据量的测试。
产品情况:Weka为开源的,自动建模功能属于Weka的一个扩展模块,免费使用。Rapidminer属商业软件,虽有免费版本,但自动建模功能要收费。
整体使用体验:Ymodel建模速度最快。Rapidminer也还可以,当变量较多时,建模时间大幅增加。Weka建模要自己设定建模时间,建模速度也比较慢,并且在Weka中有时还需要手动处理一些变量类型,才能被自动建模识别。就自动建模功能来说,Weka的体验要相对差一些。
测试方法:所有的数据分为训练集和预测集,将预测结果导出后统一打分
测试结果:
1.泰坦尼克生存预测-分类
训练数据802条,12个变量
阳性样本和阴性样本比例大约3:5
Weka |
Rapidminer |
Ymodel |
|
Accuracy |
0.722 |
0.787 |
0.775 |
Precision |
0.862 |
0.809 |
0.857 |
Recall |
0.556 |
0.756 |
0.667 |
Specificity |
0.909 |
0.818 |
0.886 |
F1 |
0.676 |
0.782 |
0.75 |
AUC |
0.793 |
0.847 |
|
排名 |
3 |
2 |
1 |
在Weka中无法输出概率值(也有可能是没找到怎么输出),因此无法计算AUC
2.房价预测-回归
Weka |
Rapidminer |
Ymodel |
|
mse |
4.17E8 |
1.41E9 |
9.85E8 |
rmse |
20430 |
37539 |
31385 |
mae |
14164 |
19459 |
16378 |
mape |
9.108 |
11.317 |
9.921 |
R2 |
0.889 |
0.755 |
0.829 |
排名 |
1 |
3 |
2 |
3.信贷公司用户逾期预测-分类
训练数据8938条,56个变量
阳性样本和阴性样本比例大约1:8
Weka |
Rapidminer |
Ymodel |
|
Accuracy |
0.878 |
0.880 |
0.804 |
Precision |
- |
0.471 |
0.281 |
Recall |
0 |
0.063 |
0.409 |
Specificity |
1 |
0.99 |
0.858 |
F1 |
- |
0.111 |
0.333 |
AUC |
0.729 |
0.742 |
|
排名 |
3 |
2 |
1 |
在该数据上,Weka模型是失败的,没有抓到任何阳性样本
4.保险公司保单是否发生理赔预测-分类
训练数据3470条,29个变量
阳性样本和阴性样本比例大约1:7
Weka |
Rapidminer |
Ymodel |
|
Accuracy |
0.905 |
0.949 |
0.882 |
Precision |
0.051 |
0.033 |
0.022 |
Recall |
0.264 |
0.069 |
0.139 |
Specificity |
0.916 |
0.965 |
0.895 |
F1 |
0.086 |
0.045 |
0.038 |
AUC |
0.642 |
0.638 |
|
排名 |
1 |
2 |
3 |
5.二手车交易价格预测
Weka |
Rapidminer |
Ymodel |
|
mse |
2779927 |
8466716 |
9429967 |
rmse |
1667 |
2910 |
3070 |
mae |
835 |
1580 |
1537 |
mape |
27 |
75 |
54 |
R2 |
0.941 |
0.821 |
0.801 |
排名 |
1 |
2 |
3 |
综合评价:在本次测试的5份数据中,不同的数据上排名各不相同,但指标差距都不大,Ymodel整体表现都还不错。三者比较而言,Weka回归模型效果好,Ymodel分类模型好,Rapidminer居中。
English version