过抽样

 

过抽样是通过增加样本中小类样本的数据量来实现样本均衡。其中较为简单的方式是直接复制小类样本,形成数量上的均衡。

对泰坦尼克样本数据过抽样如下:


A

1

=file("D://titanic.csv").import@qtc()

2

1

3

=A1.group@p(Survived)

4

=A3.sort(~.len())

5

=A4(2).len()/A2-A4(1).len()

6

=if(A5>0,A5,0)

7

=A6.(A4(1)(rand(A4(1).len())+1))

8

=(to(A1.len()))|A7.sort()

9

=A1(A8)

A5 根据平衡比例计算需要复制的少数类样本数量

A7 在少数类样本中随机的选择要复制的样本

A8 合并原始样本和需要复制的样本位置信息

A9 取出对应位置的样本,完成抽样