数据集划分 - 分层划分
训练集和测试集中0/1 类(目标变量)的比例接近一致
A | |
1 | =file("D://titanic.csv").import@qtc() |
2 | =A1.group@p(Survived) |
3 | =A2(1).group(rand()<=0.3) |
4 | =A2(2).group(rand()<=0.3) |
5 | =(A3(1)|A4(1)).sort() |
6 | =(A3(2)|A4(2)).sort() |
7 | =train=A1(A5) |
8 | =test=A1(A6) |
A2 将样本按照 Survived 的取值 0/1 分为两组
A3 第一组分成 7:3 两组
A4 第二组分成 7:3 两组
A5 目标变量为 0 和 1 的组各取 70% 构成训练集
A6 目标变量为 0 和 1 的组各取 30% 构成预测集