箱线图原理

 

IQR=QU-QL

QU+1.5IQR 和 QL-1.5IQR 处画两条与中位线一样的线段,称其为内栏

QU+3IQR 和 QL-3IQR 处画两条线段,称其为外栏

落在内栏和外栏之间的观测值被认为是可疑的异常值

落在外栏之外的观测值被认为是高度可疑的异常值

例如,用箱线图方法对泰坦尼克数据中的Fare变量进行异常值检测


A

B

1

=file("D://titanic.csv").import@qtc()


2

=A1.(Fare)


3

=A2.median(1:4)

=A2.median(3:4)

4

=B3-A3


5

=B3+3*A4

=B1-3*A4

6

=A1.select(Fare>A5 || Fare<B5)


A3 B3 计算变量的下四分位数和上四分位数

A4 计算 IQR

A5 B5 计算上下两个外栏的值

A6 将落在外栏之外的值判定为异常值