使用相关系数选择变量

 

相关系数是度量两个变量之间相关程度的统计量,常用的有Pearson相关系数和Spearman相关系数,两者值均在[-1,1]之间分布,当其值为0时两个变量不想关,当其值为1-1时,表示两个变量完全正相关或负相关,相关系数的绝对值越大,说明两个变量的相关性越强。

例如,对信用卡欺诈检测数据中的变量,使用相关系数法进行变量选择,筛选标准为PearsonSpearman的绝对值大于0.5.


A

B

C

1

=file("D://test//creditcard_b.csv").import@tc()



2

=A1.fname()



3

=A2.delete(A2.pos("Class"))



4

for A2

=pearson(A1.(${A4}),A1.(Class))


5


=spearman(A1.(${A4}),A1.(Class))


6


>B1=B1|[A4|B4|B5]


7


=if(abs(B4)>0.5 || abs(B5)>0.5,A4)


8


>C1=C1|B7


A2-A3 取除目标变量外的字段名

A4-B8 循环所有自变量,分别计算和目标变量的相关系数,存入B1,并筛选出pearsonspearman相关系数大于0.5的变量名称存入C1

....