数据集划分 - 分层划分

 

训练集和测试集中0/1 类(目标变量)的比例接近一致


A

1

=file("D://titanic.csv").import@qtc()

2

=A1.group@p(Survived)

3

=A2(1).group(rand()<=0.3)

4

=A2(2).group(rand()<=0.3)

5

=(A3(1)|A4(1)).sort()

6

=(A3(2)|A4(2)).sort()

7

=train=A1(A5)

8

=test=A1(A6)

A2 将样本按照 Survived 的取值 0/1 分为两组

A3 第一组分成 7:3 两组

A4 第二组分成 7:3 两组

A5 目标变量为 0 和 1 的组各取 70% 构成训练集

A6 目标变量为 0 和 1 的组各取 30% 构成预测集