缺失值处理——直接删除
例如在泰坦尼克的数据中,”Embarked”字段有两个缺失值,直接删除缺失的样本
A |
|
1 |
=file("D://titanic.csv").import@qtc() |
2 |
=A1.select(Embarked==null) |
3 |
=A1.delete(A2) |
A2 选出Embarked存在缺失的样本,可以看到只有62号和830号2个乘客样本缺失登船港口信息
A3 在A1中删除A2
需要注意的是,对于缺失值采用直接删除的方法会损失信息,导致数据分布发生偏离,因此并不常用,更多的情况是对缺失值进行填补,本书将介绍几种常用的填补方法,供读者参考。