Ymodel-Weka-Rapidminer 自动建模效果对比

目标:对比WekaRapidminerYmodel的自动建模效果

数据情况:5份数据,3份分类,2份回归

2Kaggle经典案例,3份真实业务数据

泰坦尼克数据

分类 Kaggle

房价预测

回归 Kaggle

信贷公司用户逾期预测

分类

保险公司保单是否发生理赔预测

分类

二手车交易价格预测

回归

由于Rapidminer免费版数据量限制1万条,因此对3份真实业务数据进行了抽样,样本量都控制在几千的级别。无法进行大数据量的测试。

产品情况:Weka为开源的,自动建模功能属于Weka的一个扩展模块,免费使用。Rapidminer属商业软件,虽有免费版本,但自动建模功能要收费。

整体使用体验:Ymodel建模速度最快。Rapidminer也还可以,当变量较多时,建模时间大幅增加。Weka建模要自己设定建模时间,建模速度也比较慢,并且在Weka中有时还需要手动处理一些变量类型,才能被自动建模识别。就自动建模功能来说,Weka的体验要相对差一些。

测试方法:所有的数据分为训练集和预测集,将预测结果导出后统一打分

测试结果:

1.泰坦尼克生存预测-分类

训练数据802条,12个变量

阳性样本和阴性样本比例大约35


Weka

Rapidminer

Ymodel

Accuracy

0.722

0.787

0.775

Precision

0.862

0.809

0.857

Recall

0.556

0.756

0.667

Specificity

0.909

0.818

0.886

F1

0.676

0.782

0.75

AUC


0.793

0.847

排名

3

2

1

Weka中无法输出概率值(也有可能是没找到怎么输出),因此无法计算AUC

2.房价预测-回归


Weka

Rapidminer

Ymodel

mse

4.17E8

1.41E9

9.85E8

rmse

20430

37539

31385

mae

14164

19459

16378

mape

9.108

11.317

9.921

R2

0.889

0.755

0.829

排名

1

3

2

3.信贷公司用户逾期预测-分类

训练数据8938条,56个变量

阳性样本和阴性样本比例大约18


Weka

Rapidminer

Ymodel

Accuracy

0.878

0.880

0.804

Precision

-

0.471

0.281

Recall

0

0.063

0.409

Specificity

1

0.99

0.858

F1

-

0.111

0.333

AUC


0.729

0.742

排名

3

2

1

在该数据上,Weka模型是失败的,没有抓到任何阳性样本

4.保险公司保单是否发生理赔预测-分类

训练数据3470条,29个变量

阳性样本和阴性样本比例大约17


Weka

Rapidminer

Ymodel

Accuracy

0.905

0.949

0.882

Precision

0.051

0.033

0.022

Recall

0.264

0.069

0.139

Specificity

0.916

0.965

0.895

F1

0.086

0.045

0.038

AUC


0.642

0.638

排名

1

2

3

5.二手车交易价格预测


Weka

Rapidminer

Ymodel

mse

2779927

8466716

9429967

rmse

1667

2910

3070

mae

835

1580

1537

mape

27

75

54

R2

0.941

0.821

0.801

排名

1

2

3

综合评价:在本次测试的5份数据中,不同的数据上排名各不相同,但指标差距都不大,Ymodel整体表现都还不错。三者比较而言,Weka回归模型效果好,Ymodel分类模型好,Rapidminer居中