等距分箱
等距分箱:将变量的取值范围分为k 个等宽的区间,每个区间当作一个分箱,这里只考虑边界,每个箱内的样本量可能不等。
例如,将”Fare”变量等距分箱
A |
|
1 |
=file("D://titanic.csv").import@qtc() |
2 |
=A1.(Fare).max() |
3 |
=A1.(Fare).min() |
4 |
3 |
5 |
=(A2-A3)/A4 |
6 |
=A4.((~-1)*A5+A3) |
7 |
=A1.derive(if(Fare<=A6(2),"low",if(Fare>A6(3),"hign","middle")):Fare_equiwidth_binning) |
A5 计算每个箱子的距离
A6 计算每个箱子的边界
A7 根据边界值将 Fare 分箱