数据转换 - 其他变换
除了对变量本身做一些数学转换外,也可衍生一些反映和目标变量关系的变量,比如目标阳性样本比例,Odds encoding,log-odds encoding,数值目标均值
例如,泰坦尼克的目标变量Survived 为分类变量,对其中的”Sex”变量进行目标阳性样本比例,Odds encoding和log-odds encoding变换
A |
|
1 |
=file("D://titanic.csv").import@qtc() |
2 |
=A1.groups(Sex;count(Survived==1)/count(~):tar_P) |
3 |
=A1.derive(if(Sex=="female",A2(1).tar_P,A2(2).tar_P):tar_P_Sex,if(Sex=="female",A2(1).tar_P/A2(2).tar_P,A2(2).tar_P/A2(1).tar_P):odds,lg(odds):lg_odds) |
A2 根据变量”Sex”分组,统计组成员获救的比例
A3 计算目标阳性样本比例,Odds encoding,log-odds encoding
房价预测数据中的目标变量”SalePrice”为数值变量,对分类变量”MSZoning”做数值目标均值变换
A |
|
1 |
=T("D://house_prices_train.csv") |
2 |
=A1.groups(MSZoning;avg(SalePrice):tar_mean) |
3 |
=A1.derive(A2(A2.(MSZoning).pos(MSZoning)).tar_mean:MSZoing_tar_mean) |
A2 根据”MSZoing”分组,计算对应目标变量均值
A3 根据每个变量的取值,获取相应的目标均值