高偏度数据处理—手动纠偏

 

纠偏,就是通过各种数学转换,使得变量的分布呈现或者近似正态分布,模型的拟合常常会有明显的提升。

常用的数学变换有:对数变换、幂变换(例如开根号、平方等)、倒数变换、指数变换、rank 变换等

例如,房价预测的数据中有一个变量SalePrice,对其进行对数变换、幂变换、rank 变换


A

1

=file("D://house_prices_train.csv").import@qtc()

2

=A1.derive(ln(SalePrice):ln_SalePrice,power(SalePrice,1.7):power_SalePrice)

3

=A1.ranks@s(SalePrice)

4

=A2.derive(A3(#):rank_SalePrice)

5

=A4.(SalePrice).skew()

6

=A4.(ln_SalePrice).skew()

7

=A4.(power_SalePrice).skew()

8

=A4.(rank_SalePrice).skew()

A2 对数变换和幂变换

A3 rank 变换

A5-A8 各种变换前后的偏度值,对于 SalePrice 采用对数纠偏效果较好