• •      •    186 浏览    •   2023-01-16 21:55:45

    使用相关系数选择变量 

    相关系数是度量两个变量之间相关程度的统计量,常用的有Pearson相关系数和Spearman相关系数,两者值均在[-1,1]之间分布,当其值为0时两个变量不想关,当其值为1或-1时,表示两个变 ..
  • •      •    142 浏览    •   2022-11-17 21:22:27

    支持向量机 SVMs 

    在SPL中svm()中包含了C-SVC,nu-SVC,epsilon-SVR和nu-SVR五种算法,可用于解决分类问题和回归问题。详细的语法和参数说明见函数参考文档http://d.raqso ..
  • •      •    117 浏览    •   2022-11-16 21:32:20

    数据集划分 - 分层划分 

    训练集和测试集中0/1 类(目标变量)的比例接近一致 A 1 =file('D://titanic.csv').import@qtc() 2 =A1.group@p(Survived) 3 = ..
  • •      •    146 浏览    •   2022-11-15 22:01:17

    数据集划分 - 随机划分 

    在泰坦尼克数据中按照7:3 比例随机划分训练集和测试集 A 1 =file('D://titanic.csv').import@qtc() 2 =A1.group(rand()<=0.3 ..
  • •      •    113 浏览    •   2022-11-14 21:04:52

    过抽样 

    过抽样是通过增加样本中小类样本的数据量来实现样本均衡。其中较为简单的方式是直接复制小类样本,形成数量上的均衡。 对泰坦尼克样本数据过抽样如下: A 1 =file('D://titanic.c ..
  • •      •    150 浏览    •   2022-11-14 00:08:38

    欠抽样 

    欠抽样是通过减少多数类样本的样本数量来实现样本均衡。其中比较简单直接的方法就是随机去掉一些数据来减少多数类样本的规模。 例如,泰坦尼克数据中目标变量Survived是一个取值为0,1的二值变量 ..
  • •      •    197 浏览    •   2022-11-11 21:45:44

    标注异常值 

    例如,还是titanic.csv中的”Fare”变量,分别以3倍标准差(z=3)和5倍标准差为标准(z=5)对异常值进行标注。 A 1 =file('D://titanic.csv').imp ..
  • •      •    143 浏览    •   2022-11-10 20:30:39

    高偏度数据处理—手动纠偏 

    纠偏,就是通过各种数学转换,使得变量的分布呈现或者近似正态分布,模型的拟合常常会有明显的提升。 常用的数学变换有:对数变换、幂变换(例如开根号、平方等)、倒数变换、指数变换、rank 变换等 ..
  • •      •    184 浏览    •   2022-11-09 22:11:06

    低频分类数据处理 

    当分类变量的分类数较多时,可能会存在一些频数极小的类别,例如极少数分类,异常分类,疑似错误分类等情况,这时可以通过合并低频变量来降低分类个数。 例如Titanic.csv中的“Name”是一个 ..
  • •      •    173 浏览    •   2022-11-08 21:37:11

    等频分箱 

    把变量值按照从小到大的顺序排列,根据数据集样本个数等分为k 部分,每部分当作一个分箱,比如分箱数是 10,则每个箱内包含大约 10% 的样本量。 将”Fare”变量等频分箱 A 1 =file ..
  • •      •    127 浏览    •   2022-11-07 21:10:42

    等距分箱 

    等距分箱:将变量的取值范围分为k 个等宽的区间,每个区间当作一个分箱,这里只考虑边界,每个箱内的样本量可能不等。 例如,将”Fare”变量等距分箱 A 1 =file('D://titanic ..
  • •      •    110 浏览    •   2022-11-06 21:19:23

    比率 

    比率是指两个变量相除,用于连续型变量 比率也是特征组合的一种方法,特征组合是为了弥补线性模型无法表达非线性性质的不足的补充,有助于提升线性模型的表达能力 注意:在比率计算中,做分母的变量不能有 ..
  • •      •    136 浏览    •   2022-11-05 22:23:07

    变量交互 

    变量交互是指两个变量相乘,可以是数值变量*数值变量,也可以是分类变量*分类变量。 组合特征是特征工程中非常重要的方法之一,它将两个或更多的类别属性组合成一个。当组合的特征要比单个特征更好时,这 ..
  • •      •    104 浏览    •   2022-11-04 21:37:50

    数据转换 - 其他变换 

    除了对变量本身做一些数学转换外,也可衍生一些反映和目标变量关系的变量,比如目标阳性样本比例,Odds encoding,log-odds encoding,数值目标均值 例如,泰坦尼克的目标变 ..
  • •      •    383 浏览    •   2022-11-03 21:11:36

    变量转换—正切和反正切变换 

    正切和反正切变换是一种值域变换,它将数据在有穷域和无穷域中相互转化 例如,将泰坦尼克数据中的”Fare”变量进行反正切变换 A 1 =file('D://titanic.csv').impor ..
  • •      •    222 浏览    •   2022-11-02 22:14:49

    变量转换—Box-Cox 变换 

    Box-Cox变换是Box和Cox在1964年提出的一种广义幂变换方法,是统计建模中常用的一种数据变换,用于连续量不满足正态分布的情况 Box-Cox变换的一般形式为: [图片] 例如,对房价 ..
  • •      •    124 浏览    •   2022-11-01 22:36:32

    变量转换 - 对数变换 

    对数变换一般用于金融数据,可以把指数增长型的数据转化为线性增长 例如: A 1 =[1.26,1.58,2,2.51,3.16,3.98,5.01,6.31,7.94,10] 2 =A1.(l ..
  • •      •    301 浏览    •   2022-10-31 20:17:16

    Z-Score 标准化 

    这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1。 转化函数为: Z=(x−[图片 ..
  • •      •    1,240 浏览    •   2022-10-30 23:19:08

    Min-Max 标准化 

    也称为离差标准化,是对原始数据的线性变换,使结果值映射到 [0 - 1] 之间。 转换函数:x∗=x−min/max−min,max:样本数据最大值,min:样本数据最小值 例如,房价预测的数 ..
  • •      •    161 浏览    •   2022-10-29 21:17:58

    日期时间组合 

    date()函数可以将多个含有日期信息变量组合为日期变量 [图片] A 1 =create(year,month,day) 2 =A1.insert(100) 3 =A1.run(year=2 ..
  • •      •    138 浏览    •   2022-10-28 20:54:35

    线性回归模型填补 

    线性回归模型填补是模型填补的一种,以需要填补的变量为因变量,其他变量为自变量,利用因变量非缺失部分对应的样本来训练模型,然后用模型对缺失部分的数据进行填补。 例如,使用线性回归模型填补tita ..
  • •      •    196 浏览    •   2022-10-27 21:19:28

    K-means 聚类填补 

    K-means聚类又称为快速聚类,是一种需要事先确定类别个数的聚类方法。使用K-means聚类可以将全部样本分成若干个组,如果假定包含缺失值的变量在不同分组具有不同的取值,则可以使用该变量非缺 ..
  • •      •    135 浏览    •   2022-10-26 22:47:50

    缺失值处理——直接删除 

    例如在泰坦尼克的数据中,”Embarked”字段有两个缺失值,直接删除缺失的样本 A 1 =file('D://titanic.csv').import@qtc() 2 =A1.select( ..
  • •      •    273 浏览    •   2022-10-25 14:21:00

    剔除无用变量 

    数据中常有一些质量比较差或对建模没有意义的变量,可以定义一些规则,对其进行直接删除,以减少计算量,比如 (1)缺失率过高的变量 (2)单值变量 (3)分类数过多的变量 A 1 =file('D ..
  • •      •    244 浏览    •   2022-10-25 06:35:58

    绝对中位差(MAD) 

    MAD 定义为,一元序列 Xi同其中位数偏差的绝对值的中位数 MAD=median(|Xi−median(X)|) 例如,使用MAD方法检测Fare变量的异常值,阈值取3.5 A 1 =fil ..
关注乾学院公众号