数据集划分 - 分层划分

 

训练集和测试集中0/1 类(目标变量)的比例接近一致


A
1 =file("D://titanic.csv").import@qtc()
2 =A1.group@p(Survived)
3 =A2(1).group(rand()<=0.3)
4 =A2(2).group(rand()<=0.3)
5 =(A3(1)|A4(1)).sort()
6 =(A3(2)|A4(2)).sort()
7 =train=A1(A5)
8 =test=A1(A6)

A2 将样本按照 Survived 的取值 0/1 分为两组

A3 第一组分成 7:3 两组

A4 第二组分成 7:3 两组

A5 目标变量为 0 和 1 的组各取 70% 构成训练集

A6 目标变量为 0 和 1 的组各取 30% 构成预测集