自动纠偏函数
纠偏,就是通过各种数学转换,使得变量的分布呈现或者近似正态分布,模型的拟合常常会有明显的提升。在SPL提供了自动纠偏函数,可以根据数据特点选择合适的纠偏变换进行纠偏。
A.corskew()和P.corskew(cn)用来对数值型自变量纠偏
A.tarcorskew()和P.tarcorskew(tn)用来对数值型目标变量纠偏
在房价预测的数据中,自变量“LotArea”和目标变量“SalePrice”的偏度都比较大,使用上述函数对其纠偏:
A |
|
1 |
=T("D://house_prices_train.csv") |
2 |
=T("D:// house_prices_test.csv") |
3 |
=A1.(LotArea).skew() |
4 |
=A1.corskew("LotArea") |
5 |
=A4(1).skew() |
6 |
=A2.corskew@r("LotArea",A4(2)) |
7 |
=A1.tarcorskew@c("SalePrice") |
8 |
=A1.tarcorskew@r("SalePrice",A7(2)) |
A1导入建模数据
A2 导入预测数据
A3 计算变量“LotAeea”的偏度
A4 对变量进行纠偏,返回纠偏结果和纠偏记录Rec
A5 计算纠偏后的偏度,纠偏后偏度降低,接近于0
A6 根据A4的纠偏记录,在预测数据集上对同一个变量纠偏,返回纠偏结果
A7 对目标变量进行纠偏,返回纠偏结果和纠偏记录Rec。@c表示将原始数据修改为纠偏后结果
A8 根据A7的纠偏记录,对纠偏后结果进行回复,通常用于对预测结果的回复。