箱线图原理
IQR=QU-QL
在QU+1.5IQR 和 QL-1.5IQR 处画两条与中位线一样的线段,称其为内栏
在QU+3IQR 和 QL-3IQR 处画两条线段,称其为外栏
落在内栏和外栏之间的观测值被认为是可疑的异常值
落在外栏之外的观测值被认为是高度可疑的异常值
例如,用箱线图方法对泰坦尼克数据中的”Fare”变量进行异常值检测
A |
B |
|
1 |
=file("D://titanic.csv").import@qtc() |
|
2 |
=A1.(Fare) |
|
3 |
=A2.median(1:4) |
=A2.median(3:4) |
4 |
=B3-A3 |
|
5 |
=B3+3*A4 |
=B1-3*A4 |
6 |
=A1.select(Fare>A5 || Fare<B5) |
A3 B3 计算变量的下四分位数和上四分位数
A4 计算 IQR
A5 B5 计算上下两个外栏的值
A6 将落在外栏之外的值判定为异常值