分类模型评估:AUC,GINI,KS

 

除上述几个简单的计算指标外,通常还会用AUCGINIKS来评价模型的整体表现

还是使用上一小节泰坦尼克的预测数据titanic_export.csv,用到的变量有Survived_1_percentage 和 Survived,计算代码如下:


A

B

1

=T("D://titanic_export.csv")


2

=A1.(Survived_1_percentage).ranks()


3

=A1.derive(A2(#):rank)


4

=A3.groups(Survived;sum(rank):sum_rank,count(~):count)


5

=(A4(2).sum_rank-A4(2).count*(1+A4(2).count)/2)/(A4(2).count*A4(1).count)

/auc

6

=2*A5-1

/gini

7

=A1.sort@z(Survived_1_percentage)


8

=A7.len()\10+1


9

=A7.derive(#\A8:decile)


10

=A9.groups(decile;count(Survived==1):event,count(Survived==0):non_event)


11

=A10.derive(event+cum_event[-1]:cum_event,non_event+cum_non_event[-1]:cum_non_event)


12

=A11.derive(cum_event/A4(2).count-cum_non_event/A4(1).count:ks)


13

=A12.max(ks)

/ks

A5 返回AUC

..

A6 返回GINI

..

A13 返回KS

..

这三个指标的计算方法比较复杂,有兴趣的读者请自行查阅相关资料,本书只提供计算代码供读者使用。

关于各指标的使用方法,可参阅http://www.raqsoft.com.cn/wx/course-data-mining.html模型评估章节。