等距分箱

 

等距分箱:将变量的取值范围分为k 个等宽的区间,每个区间当作一个分箱,这里只考虑边界,每个箱内的样本量可能不等。

例如,将Fare变量等距分箱


A

1

=file("D://titanic.csv").import@qtc()

2

=A1.(Fare).max()

3

=A1.(Fare).min()

4

3

5

=(A2-A3)/A4

6

=A4.((~-1)*A5+A3)

7

=A1.derive(if(Fare<=A6(2),"low",if(Fare>A6(3),"hign","middle")):Fare_equiwidth_binning)

A5 计算每个箱子的距离

A6 计算每个箱子的边界

A7 根据边界值将 Fare 分箱