数据转换 - 其他变换

 

除了对变量本身做一些数学转换外,也可衍生一些反映和目标变量关系的变量,比如目标阳性样本比例,Odds encoding,log-odds encoding,数值目标均值

例如,泰坦尼克的目标变量Survived 为分类变量,对其中的Sex变量进行目标阳性样本比例,Odds encodinglog-odds encoding变换


A

1

=file("D://titanic.csv").import@qtc()

2

=A1.groups(Sex;count(Survived==1)/count(~):tar_P)

3

=A1.derive(if(Sex=="female",A2(1).tar_P,A2(2).tar_P):tar_P_Sex,if(Sex=="female",A2(1).tar_P/A2(2).tar_P,A2(2).tar_P/A2(1).tar_P):odds,lg(odds):lg_odds)

A2 根据变量Sex分组,统计组成员获救的比例

A3 计算目标阳性样本比例,Odds encoding,log-odds encoding

房价预测数据中的目标变量SalePrice为数值变量,对分类变量MSZoning做数值目标均值变换


A

1

=T("D://house_prices_train.csv")

2

=A1.groups(MSZoning;avg(SalePrice):tar_mean)

3

=A1.derive(A2(A2.(MSZoning).pos(MSZoning)).tar_mean:MSZoing_tar_mean)

A2 根据MSZoing分组,计算对应目标变量均值

A3 根据每个变量的取值,获取相应的目标均值