修正异常值

 

异常值的处理方法:

删除含有异常值的记录:直接将含有异常值的记录删除;

视为缺失值:将异常值视为缺失值,利用缺失值处理的方法进行处理;

修正异常值:可用端点值或前后两个观测值的平均值修正该异常值;

标注异常值:通过建立新的变量,对异常值进行标注,以便进一步分析或处理

不处理:直接在具有异常值的数据集上进行数据挖掘。

SPL 中A.sert()P.sert(cn)可以根据z 分数方法自动判定异常值并进行修正处理。例如,在泰坦尼克生存预测的数据中对变量“Fare”进行异常值修正。


A

1

=file("D://titanic.csv").import@qtc()

2

=A1.sert@c("Fare")

A3 计算变量 Fare 的标准差

A2 修正 Fare 变量中的异常值,返回修正结果和修正记录 Rec,@c 表示修改原数据。