Ymodel-Weka-Rapidminer 自动建模效果对比
目标:对比Weka,Rapidminer,Ymodel的自动建模效果
数据情况:共5份数据,3份分类,2份回归
2份Kaggle经典案例,3份真实业务数据
泰坦尼克数据  |  
   分类 Kaggle  |  
  
房价预测  |  
   回归 Kaggle  |  
  
信贷公司用户逾期预测  |  
   分类  |  
  
保险公司保单是否发生理赔预测  |  
   分类  |  
  
二手车交易价格预测  |  
   回归  |  
  
由于Rapidminer免费版数据量限制1万条,因此对3份真实业务数据进行了抽样,样本量都控制在几千的级别。无法进行大数据量的测试。
产品情况:Weka为开源的,自动建模功能属于Weka的一个扩展模块,免费使用。Rapidminer属商业软件,虽有免费版本,但自动建模功能要收费。
整体使用体验:Ymodel建模速度最快。Rapidminer也还可以,当变量较多时,建模时间大幅增加。Weka建模要自己设定建模时间,建模速度也比较慢,并且在Weka中有时还需要手动处理一些变量类型,才能被自动建模识别。就自动建模功能来说,Weka的体验要相对差一些。
测试方法:所有的数据分为训练集和预测集,将预测结果导出后统一打分
测试结果:
1.泰坦尼克生存预测-分类
训练数据802条,12个变量
阳性样本和阴性样本比例大约3:5
Weka  |  
   Rapidminer  |  
   Ymodel  |  
  |
Accuracy  |  
   0.722  |  
   0.787  |  
   0.775  |  
  
Precision  |  
   0.862  |  
   0.809  |  
   0.857  |  
  
Recall  |  
   0.556  |  
   0.756  |  
   0.667  |  
  
Specificity  |  
   0.909  |  
   0.818  |  
   0.886  |  
  
F1  |  
   0.676  |  
   0.782  |  
   0.75  |  
  
AUC  |  
   0.793  |  
   0.847  |  
  |
排名  |  
   3  |  
   2  |  
   1  |  
  
在Weka中无法输出概率值(也有可能是没找到怎么输出),因此无法计算AUC
2.房价预测-回归
Weka  |  
   Rapidminer  |  
   Ymodel  |  
  |
mse  |  
   4.17E8  |  
   1.41E9  |  
   9.85E8  |  
  
rmse  |  
   20430  |  
   37539  |  
   31385  |  
  
mae  |  
   14164  |  
   19459  |  
   16378  |  
  
mape  |  
   9.108  |  
   11.317  |  
   9.921  |  
  
R2  |  
   0.889  |  
   0.755  |  
   0.829  |  
  
排名  |  
   1  |  
   3  |  
   2  |  
  
3.信贷公司用户逾期预测-分类
训练数据8938条,56个变量
阳性样本和阴性样本比例大约1:8
Weka  |  
   Rapidminer  |  
   Ymodel  |  
  |
Accuracy  |  
   0.878  |  
   0.880  |  
   0.804  |  
  
Precision  |  
   -  |  
   0.471  |  
   0.281  |  
  
Recall  |  
   0  |  
   0.063  |  
   0.409  |  
  
Specificity  |  
   1  |  
   0.99  |  
   0.858  |  
  
F1  |  
   -  |  
   0.111  |  
   0.333  |  
  
AUC  |  
   0.729  |  
   0.742  |  
  |
排名  |  
   3  |  
   2  |  
   1  |  
  
在该数据上,Weka模型是失败的,没有抓到任何阳性样本
4.保险公司保单是否发生理赔预测-分类
训练数据3470条,29个变量
阳性样本和阴性样本比例大约1:7
Weka  |  
   Rapidminer  |  
   Ymodel  |  
  |
Accuracy  |  
   0.905  |  
   0.949  |  
   0.882  |  
  
Precision  |  
   0.051  |  
   0.033  |  
   0.022  |  
  
Recall  |  
   0.264  |  
   0.069  |  
   0.139  |  
  
Specificity  |  
   0.916  |  
   0.965  |  
   0.895  |  
  
F1  |  
   0.086  |  
   0.045  |  
   0.038  |  
  
AUC  |  
   0.642  |  
   0.638  |  
  |
排名  |  
   1  |  
   2  |  
   3  |  
  
5.二手车交易价格预测
Weka  |  
   Rapidminer  |  
   Ymodel  |  
  |
mse  |  
   2779927  |  
   8466716  |  
   9429967  |  
  
rmse  |  
   1667  |  
   2910  |  
   3070  |  
  
mae  |  
   835  |  
   1580  |  
   1537  |  
  
mape  |  
   27  |  
   75  |  
   54  |  
  
R2  |  
   0.941  |  
   0.821  |  
   0.801  |  
  
排名  |  
   1  |  
   2  |  
   3  |  
  
综合评价:在本次测试的5份数据中,不同的数据上排名各不相同,但指标差距都不大,Ymodel整体表现都还不错。三者比较而言,Weka回归模型效果好,Ymodel分类模型好,Rapidminer居中。
            
        

English version