标注异常值
例如,还是titanic.csv中的”Fare”变量,分别以3倍标准差(z=3)和5倍标准差为标准(z=5)对异常值进行标注。
A |
|
1 |
=file("D://titanic.csv").import@qtc() |
2 |
=A1.avg(Fare) |
3 |
=sqrt(var@s(A1.(Fare))) |
4 |
=A1.derive((Fare-A2)/A3:Fare_z,if(Fare_z>3,1,if(Fare_z<-3,-1,0)):Fare_z3,if(Fare_z>5,1,if(Fare_z<-5,-1,0)):Fare_z5) |
A2 计算Fare的平均值
A3 计算Fare的标准差
A4 计算Fare的z分数,记为Fare_z,然后根据z值来标注异常值。z值大于3的标注为1,小于-3的标注为-1,其他为0,变量记为Fare_z3;z值大于5的标注为1,小于-5的标注为-1,其他为0,变量记为Fare_z5