Ymodel-Weka-Rapidminer 自动建模效果对比
目标:对比Weka,Rapidminer,Ymodel的自动建模效果
数据情况:共5份数据,3份分类,2份回归
2份Kaggle经典案例,3份真实业务数据
泰坦尼克数据 | 分类 Kaggle |
房价预测 | 回归 Kaggle |
信贷公司用户逾期预测 | 分类 |
保险公司保单是否发生理赔预测 | 分类 |
二手车交易价格预测 | 回归 |
由于Rapidminer免费版数据量限制1万条,因此对3份真实业务数据进行了抽样,样本量都控制在几千的级别。无法进行大数据量的测试。
产品情况:Weka为开源的,自动建模功能属于Weka的一个扩展模块,免费使用。Rapidminer属商业软件,虽有免费版本,但自动建模功能要收费。
整体使用体验:Ymodel建模速度最快。Rapidminer也还可以,当变量较多时,建模时间大幅增加。Weka建模要自己设定建模时间,建模速度也比较慢,并且在Weka中有时还需要手动处理一些变量类型,才能被自动建模识别。就自动建模功能来说,Weka的体验要相对差一些。
测试方法:所有的数据分为训练集和预测集,将预测结果导出后统一打分
测试结果:
1.泰坦尼克生存预测-分类
训练数据802条,12个变量
阳性样本和阴性样本比例大约3:5
Weka | Rapidminer | Ymodel | |
Accuracy | 0.722 | 0.787 | 0.775 |
Precision | 0.862 | 0.809 | 0.857 |
Recall | 0.556 | 0.756 | 0.667 |
Specificity | 0.909 | 0.818 | 0.886 |
F1 | 0.676 | 0.782 | 0.75 |
AUC | 0.793 | 0.847 | |
排名 | 3 | 2 | 1 |
在Weka中无法输出概率值(也有可能是没找到怎么输出),因此无法计算AUC
2.房价预测-回归
Weka | Rapidminer | Ymodel | |
mse | 4.17E8 | 1.41E9 | 9.85E8 |
rmse | 20430 | 37539 | 31385 |
mae | 14164 | 19459 | 16378 |
mape | 9.108 | 11.317 | 9.921 |
R2 | 0.889 | 0.755 | 0.829 |
排名 | 1 | 3 | 2 |
3.信贷公司用户逾期预测-分类
训练数据8938条,56个变量
阳性样本和阴性样本比例大约1:8
Weka | Rapidminer | Ymodel | |
Accuracy | 0.878 | 0.880 | 0.804 |
Precision | - | 0.471 | 0.281 |
Recall | 0 | 0.063 | 0.409 |
Specificity | 1 | 0.99 | 0.858 |
F1 | - | 0.111 | 0.333 |
AUC | 0.729 | 0.742 | |
排名 | 3 | 2 | 1 |
在该数据上,Weka模型是失败的,没有抓到任何阳性样本
4.保险公司保单是否发生理赔预测-分类
训练数据3470条,29个变量
阳性样本和阴性样本比例大约1:7
Weka | Rapidminer | Ymodel | |
Accuracy | 0.905 | 0.949 | 0.882 |
Precision | 0.051 | 0.033 | 0.022 |
Recall | 0.264 | 0.069 | 0.139 |
Specificity | 0.916 | 0.965 | 0.895 |
F1 | 0.086 | 0.045 | 0.038 |
AUC | 0.642 | 0.638 | |
排名 | 1 | 2 | 3 |
5.二手车交易价格预测
Weka | Rapidminer | Ymodel | |
mse | 2779927 | 8466716 | 9429967 |
rmse | 1667 | 2910 | 3070 |
mae | 835 | 1580 | 1537 |
mape | 27 | 75 | 54 |
R2 | 0.941 | 0.821 | 0.801 |
排名 | 1 | 2 | 3 |
综合评价:在本次测试的5份数据中,不同的数据上排名各不相同,但指标差距都不大,Ymodel整体表现都还不错。三者比较而言,Weka回归模型效果好,Ymodel分类模型好,Rapidminer居中。
English version