标注异常值
例如,还是titanic.csv中的”Fare”变量,分别以3倍标准差(z=3)和5倍标准差为标准(z=5)对异常值进行标注。
A  |  
  |
1  |  
   =file("D://titanic.csv").import@qtc()  |  
  
2  |  
   =A1.avg(Fare)  |  
  
3  |  
   =sqrt(var@s(A1.(Fare)))  |  
  
4  |  
   =A1.derive((Fare-A2)/A3:Fare_z,if(Fare_z>3,1,if(Fare_z<-3,-1,0)):Fare_z3,if(Fare_z>5,1,if(Fare_z<-5,-1,0)):Fare_z5)  |  
  
A2 计算Fare的平均值
A3 计算Fare的标准差
A4 计算Fare的z分数,记为Fare_z,然后根据z值来标注异常值。z值大于3的标注为1,小于-3的标注为-1,其他为0,变量记为Fare_z3;z值大于5的标注为1,小于-5的标注为-1,其他为0,变量记为Fare_z5

            
        
