高偏度数据处理—手动纠偏
纠偏,就是通过各种数学转换,使得变量的分布呈现或者近似正态分布,模型的拟合常常会有明显的提升。
常用的数学变换有:对数变换、幂变换(例如开根号、平方等)、倒数变换、指数变换、rank 变换等
例如,房价预测的数据中有一个变量SalePrice,对其进行对数变换、幂变换、rank 变换
A |
|
1 |
=file("D://house_prices_train.csv").import@qtc() |
2 |
=A1.derive(ln(SalePrice):ln_SalePrice,power(SalePrice,1.7):power_SalePrice) |
3 |
=A1.ranks@s(SalePrice) |
4 |
=A2.derive(A3(#):rank_SalePrice) |
5 |
=A4.(SalePrice).skew() |
6 |
=A4.(ln_SalePrice).skew() |
7 |
=A4.(power_SalePrice).skew() |
8 |
=A4.(rank_SalePrice).skew() |
A2 对数变换和幂变换
A3 rank 变换
A5-A8 各种变换前后的偏度值,对于 SalePrice 采用对数纠偏效果较好