使用相关系数选择变量
相关系数是度量两个变量之间相关程度的统计量,常用的有Pearson相关系数和Spearman相关系数,两者值均在[-1,1]之间分布,当其值为0时两个变量不想关,当其值为1或-1时,表示两个变量完全正相关或负相关,相关系数的绝对值越大,说明两个变量的相关性越强。
例如,对信用卡欺诈检测数据中的变量,使用相关系数法进行变量选择,筛选标准为Pearson或Spearman的绝对值大于0.5.
A | B | C | |
1 | =file("D://test//creditcard_b.csv").import@tc() | ||
2 | =A1.fname() | ||
3 | =A2.delete(A2.pos("Class")) | ||
4 | for A2 | =pearson(A1.(${A4}),A1.(Class)) | |
5 | =spearman(A1.(${A4}),A1.(Class)) | ||
6 | >B1=B1|[A4|B4|B5] | ||
7 | =if(abs(B4)>0.5 || abs(B5)>0.5,A4) | ||
8 | >C1=C1|B7 |
A2-A3 取除目标变量外的字段名
A4-B8 循环所有自变量,分别计算和目标变量的相关系数,存入B1,并筛选出pearson或spearman相关系数大于0.5的变量名称存入C1。