使用统计检验 p 值选择变量
使用统计假设检验的方法也可以判断自变量对因变量的影响是否显著,在SPL中提供了几种统计检验p值计算的函数,可以根据数据情况选择合适的检验形式,函数用法见p 值 - 乾学院 (raqsoft.com.cn)章节。
在本案例中,以t检验的形式来选择信用卡欺诈数据中的变量,筛选标准为保留p值小于0.01的变量。
A |
B |
C |
|
1 |
=file("D://test//creditcard_b.csv").import@tc() |
||
2 |
=A1.fname() |
||
3 |
=A2.delete(A2.pos("Class")) |
||
4 |
for A2 |
=ttest_p(A1.(${A4}),A1.(Class)) |
|
5 |
>B1=B1|[A4|B4] |
||
6 |
=if(B4<0.01,A4) |
||
7 |
>C1=C1|B6 |
A2 获取字段名
A3 删除目标变量字段名
A4-B7 循环每个字段,分别计算每个自变量和目标变量的p值结果放入B1,并筛选p值小于0.01的变量放入C1