• •      •    329 浏览    •   2022-11-14 00:08:38

    欠抽样 

    欠抽样是通过减少多数类样本的样本数量来实现样本均衡。其中比较简单直接的方法就是随机去掉一些数据来减少多数类样本的规模。 例如,泰坦尼克数据中目标变量Survived是一个取值为0,1的二值变量 ..
  • •      •    232 浏览    •   2022-11-13 14:06:58

    12.12 与子查询所有结果比较 

    根据一个表中数据,通过与子查询中所有结果比较筛选记录。根据员工表,查询哪些员工的工资比所有销售部员工都要高。 ID NAME DEPT SALARY 1 Rebecca R&D 700 ..
  • •      •    253 浏览    •   2022-11-12 09:36:22

    12.11 匹配的存在性检测 

    在两个表中,根据匹配的存在性检测查找记录。 根据成绩表和学生表,查询两科分数差超过 30 分的学生。 Student ID Class Name … Score StudentID Subje ..
  • •      •    375 浏览    •   2022-11-12 09:34:12

    12.10 简化 SQL 双重否定的一个示例 

    根据一个表中数据,查询与另一个表中能够匹配的记录,在 SQL 处理中通过双重否定可以减少运算量。 根据选课表、课程表和学生表,查询选修了所有课程的学生。 Student ID Name Cla ..
  • •      •    363 浏览    •   2022-11-11 21:45:44

    标注异常值 

    例如,还是titanic.csv中的”Fare”变量,分别以3倍标准差(z=3)和5倍标准差为标准(z=5)对异常值进行标注。 A 1 =file('D://titanic.csv').imp ..
  • •      •    256 浏览    •   2022-11-11 10:38:32

    12.9 匹配的不存在性检测 

    在两个互相关联的表中,根据匹配的不存在性检测记录。 根据成绩表和学生表,查询所有科目均高于 80 分的学生。 Student ID Class Name … Score StudentID S ..
  • •      •    267 浏览    •   2022-11-11 10:14:05

    12.8 外键映射的不存在性检测 

    在两个表中,根据外键映射的不存在性检测查找记录。 根据销售表和客户表,查询 2014 年每个新增客户的销售总额。 Sales ID CustomerID OrderDate … Custome ..
  • •      •    349 浏览    •   2022-11-10 20:30:39

    高偏度数据处理—手动纠偏 

    纠偏,就是通过各种数学转换,使得变量的分布呈现或者近似正态分布,模型的拟合常常会有明显的提升。 常用的数学变换有:对数变换、幂变换(例如开根号、平方等)、倒数变换、指数变换、rank 变换等 ..
  • •      •    255 浏览    •   2022-11-10 09:42:57

    12.7 一个自连接简化示例 

    在一个表中,通过复杂的自连接判断查找数据。 在订单表中,查询同一订单跨度超过一年的订单的销售额。 ID NUMBER AMOUNT DELIVERDATE ARRIVALDATE 10814 ..
  • •      •    272 浏览    •   2022-11-10 09:40:15

    12.6 多字段外键映射的存在性检测 

    在两个表中,根据多字段外键映射的存在性查找记录。 在成绩表和学生表中,统计一班男生的平均分。 Score StudentID Class Subject Score Student ID Cl ..
  • •      •    362 浏览    •   2022-11-09 22:11:06

    低频分类数据处理 

    当分类变量的分类数较多时,可能会存在一些频数极小的类别,例如极少数分类,异常分类,疑似错误分类等情况,这时可以通过合并低频变量来降低分类个数。 例如Titanic.csv中的“Name”是一个 ..
  • •      •    250 浏览    •   2022-11-09 09:41:11

    12.5 非外键匹配性检测的提速 

    在两个表中,根据非外键的匹配性检测查找记录,优化提速。 根据销售表和客户表,查询 2014 年各城市有销售记录的客户数量。 Sales ID CustomerID Date Amount Cu ..
  • •      •    253 浏览    •   2022-11-09 09:31:55

    12.4 非外键的匹配性检测 

    在两个表中,根据非外键的匹配性检测查找记录。 根据成绩表和学生表,查询各班所有某科成绩超过 80 分的学生数量。 Score StudentID Subject Score Student I ..
  • •      •    357 浏览    •   2022-11-08 21:37:11

    等频分箱 

    把变量值按照从小到大的顺序排列,根据数据集样本个数等分为k 部分,每部分当作一个分箱,比如分箱数是 10,则每个箱内包含大约 10% 的样本量。 将”Fare”变量等频分箱 A 1 =file ..
  • •      •    237 浏览    •   2022-11-08 09:01:27

    12.3 外键映射的存在性检测 

    在两个表中,根据外键映射的存在性检测查找记录。 根据选课表和课程表,查询各班有多少学生选修了“Matlab”课程。 Course ID Subject Score SelectCourse I ..
  • •      •    274 浏览    •   2022-11-08 08:59:31

    12.2 较大集合的包含性检测 

    在一个表中,根据较大集合的包含性判断来查找记录。 在销售表中,统计 2014 年大客户的每月销售额。 ID Customer SellerId Date Amount 10400 EASTC ..
  • •      •    294 浏览    •   2022-11-07 21:10:42

    等距分箱 

    等距分箱:将变量的取值范围分为k 个等宽的区间,每个区间当作一个分箱,这里只考虑边界,每个箱内的样本量可能不等。 例如,将”Fare”变量等距分箱 A 1 =file('D://titanic ..
  • •      •    395 浏览    •   2022-11-07 10:23:14

    12.1 集合包含性检测 

    在一个表中,根据集合的包含性判断查找记录。 在员工表中,统计一线城市各部门的平均工资。 ID NAME CITY SALARY 1 Rebecca Tianjin 7000 2 Ashley ..
  • •      •    306 浏览    •   2022-11-25 08:58:01

    11.13 函数递归:海盗分金问题 

    递归调用函数解决海盗分金问题。 海盗分金问题: 5 个海盗抢得 100 枚金币,他们按抽签的顺序依次提方案:首先由 1 号提出分配方案,然后 5 人表决,投票要超过半数同意方案才被通过,否则他 ..
  • •      •    265 浏览    •   2022-11-06 21:19:23

    比率 

    比率是指两个变量相除,用于连续型变量 比率也是特征组合的一种方法,特征组合是为了弥补线性模型无法表达非线性性质的不足的补充,有助于提升线性模型的表达能力 注意:在比率计算中,做分母的变量不能有 ..
  • •      •    292 浏览    •   2022-11-05 22:23:07

    变量交互 

    变量交互是指两个变量相乘,可以是数值变量*数值变量,也可以是分类变量*分类变量。 组合特征是特征工程中非常重要的方法之一,它将两个或更多的类别属性组合成一个。当组合的特征要比单个特征更好时,这 ..
  • •      •    291 浏览    •   2022-11-05 09:30:29

    11.12 函数递归:汉诺塔问题 

    递归调用函数解决汉诺塔问题。 汉诺塔问题是递归的经典问题。把 A 杆上的圆盘全部移到 C 杆上,并仍保持原有顺序叠好。每次移动一个圆盘,移动时要始终保持大盘在下,小盘在上。 [图片] 盘子从小 ..
  • •      •    258 浏览    •   2022-11-05 09:27:29

    11.11 查找所有上级引用 

    单表自连接后,查找所有上级引用。 在中国行政区划表中,列出各行政区的所有上级区域。。例如石家庄输出: China,Hebei,Shijiazhuang ID NAME PARENT_ID 1 ..
  • •      •    274 浏览    •   2022-11-04 21:37:50

    数据转换 - 其他变换 

    除了对变量本身做一些数学转换外,也可衍生一些反映和目标变量关系的变量,比如目标阳性样本比例,Odds encoding,log-odds encoding,数值目标均值 例如,泰坦尼克的目标变 ..
  • 单表自连接后,过滤出引用链上有指定值的记录,然后列出上级。 在中国行政区划表中,查询河北省下属行政区。 ID NAME PARENT_ID 1 China 0 11 Beijing 1 12 ..
关注乾学院公众号