过抽样
过抽样是通过增加样本中小类样本的数据量来实现样本均衡。其中较为简单的方式是直接复制小类样本,形成数量上的均衡。
对泰坦尼克样本数据过抽样如下:
A | |
1 | =file("D://titanic.csv").import@qtc() |
2 | 1 |
3 | =A1.group@p(Survived) |
4 | =A3.sort(~.len()) |
5 | =A4(2).len()/A2-A4(1).len() |
6 | =if(A5>0,A5,0) |
7 | =A6.(A4(1)(rand(A4(1).len())+1)) |
8 | =(to(A1.len()))|A7.sort() |
9 | =A1(A8) |
A5 根据平衡比例计算需要复制的少数类样本数量
A7 在少数类样本中随机的选择要复制的样本
A8 合并原始样本和需要复制的样本位置信息
A9 取出对应位置的样本,完成抽样