数据集划分 - 分层划分
训练集和测试集中0/1 类(目标变量)的比例接近一致
A |
|
1 |
=file("D://titanic.csv").import@qtc() |
2 |
=A1.group@p(Survived) |
3 |
=A2(1).group(rand()<=0.3) |
4 |
=A2(2).group(rand()<=0.3) |
5 |
=(A3(1)|A4(1)).sort() |
6 |
=(A3(2)|A4(2)).sort() |
7 |
=train=A1(A5) |
8 |
=test=A1(A6) |
A2 将样本按照 Survived 的取值 0/1 分为两组
A3 第一组分成 7:3 两组
A4 第二组分成 7:3 两组
A5 目标变量为 0 和 1 的组各取 70% 构成训练集
A6 目标变量为 0 和 1 的组各取 30% 构成预测集