过抽样

 

过抽样是通过增加样本中小类样本的数据量来实现样本均衡。其中较为简单的方式是直接复制小类样本,形成数量上的均衡。

对泰坦尼克样本数据过抽样如下:


A
1 =file("D://titanic.csv").import@qtc()
2 1
3 =A1.group@p(Survived)
4 =A3.sort(~.len())
5 =A4(2).len()/A2-A4(1).len()
6 =if(A5>0,A5,0)
7 =A6.(A4(1)(rand(A4(1).len())+1))
8 =(to(A1.len()))|A7.sort()
9 =A1(A8)

A5 根据平衡比例计算需要复制的少数类样本数量

A7 在少数类样本中随机的选择要复制的样本

A8 合并原始样本和需要复制的样本位置信息

A9 取出对应位置的样本,完成抽样