变量交互
变量交互是指两个变量相乘,可以是数值变量*数值变量,也可以是分类变量*分类变量。
组合特征是特征工程中非常重要的方法之一,它将两个或更多的类别属性组合成一个。当组合的特征要比单个特征更好时,这是一项非常有用的技术。
例如,将房价预测数据中的两个数值变量和两个分类变量分别交互成组合特征
A |
|
1 |
=T("D://house_prices_train.csv") |
2 |
=A1.derive(MSSubClass*LotFrontage:SubClass_LotFrontage,MSZoning+","+LotShape:MSZoning_LotShape) |
A2 将两个数值变量交互,生成”SubClass_LotFrontage”,将两个分类变量交互生成”MSZoning_LotShape”