修正异常值
异常值的处理方法:
删除含有异常值的记录:直接将含有异常值的记录删除;
视为缺失值:将异常值视为缺失值,利用缺失值处理的方法进行处理;
修正异常值:可用端点值或前后两个观测值的平均值修正该异常值;
标注异常值:通过建立新的变量,对异常值进行标注,以便进一步分析或处理
不处理:直接在具有异常值的数据集上进行数据挖掘。
在SPL 中A.sert()和P.sert(cn)可以根据z 分数方法自动判定异常值并进行修正处理。例如,在泰坦尼克生存预测的数据中对变量“Fare”进行异常值修正。
A |
|
1 |
=file("D://titanic.csv").import@qtc() |
2 |
=A1.sert@c("Fare") |
A3 计算变量 Fare 的标准差
A2 修正 Fare 变量中的异常值,返回修正结果和修正记录 Rec,@c 表示修改原数据。