过抽样
过抽样是通过增加样本中小类样本的数据量来实现样本均衡。其中较为简单的方式是直接复制小类样本,形成数量上的均衡。
对泰坦尼克样本数据过抽样如下:
A |
|
1 |
=file("D://titanic.csv").import@qtc() |
2 |
1 |
3 |
=A1.group@p(Survived) |
4 |
=A3.sort(~.len()) |
5 |
=A4(2).len()/A2-A4(1).len() |
6 |
=if(A5>0,A5,0) |
7 |
=A6.(A4(1)(rand(A4(1).len())+1)) |
8 |
=(to(A1.len()))|A7.sort() |
9 |
=A1(A8) |
A5 根据平衡比例计算需要复制的少数类样本数量
A7 在少数类样本中随机的选择要复制的样本
A8 合并原始样本和需要复制的样本位置信息
A9 取出对应位置的样本,完成抽样