• •      •    97 浏览    •   2022-11-10 09:40:15

    12.6 多字段外键映射的存在性检测 

    在两个表中,根据多字段外键映射的存在性查找记录。 在成绩表和学生表中,统计一班男生的平均分。 Score StudentID Class Subject Score Student ID Cl ..
  • •      •    184 浏览    •   2022-11-09 22:11:06

    低频分类数据处理 

    当分类变量的分类数较多时,可能会存在一些频数极小的类别,例如极少数分类,异常分类,疑似错误分类等情况,这时可以通过合并低频变量来降低分类个数。 例如Titanic.csv中的“Name”是一个 ..
  • •      •    86 浏览    •   2022-11-09 09:41:11

    12.5 非外键匹配性检测的提速 

    在两个表中,根据非外键的匹配性检测查找记录,优化提速。 根据销售表和客户表,查询 2014 年各城市有销售记录的客户数量。 Sales ID CustomerID Date Amount Cu ..
  • •      •    90 浏览    •   2022-11-09 09:31:55

    12.4 非外键的匹配性检测 

    在两个表中,根据非外键的匹配性检测查找记录。 根据成绩表和学生表,查询各班所有某科成绩超过 80 分的学生数量。 Score StudentID Subject Score Student I ..
  • •      •    173 浏览    •   2022-11-08 21:37:11

    等频分箱 

    把变量值按照从小到大的顺序排列,根据数据集样本个数等分为k 部分,每部分当作一个分箱,比如分箱数是 10,则每个箱内包含大约 10% 的样本量。 将”Fare”变量等频分箱 A 1 =file ..
  • •      •    81 浏览    •   2022-11-08 09:01:27

    12.3 外键映射的存在性检测 

    在两个表中,根据外键映射的存在性检测查找记录。 根据选课表和课程表,查询各班有多少学生选修了“Matlab”课程。 Course ID Subject Score SelectCourse I ..
  • •      •    107 浏览    •   2022-11-08 08:59:31

    12.2 较大集合的包含性检测 

    在一个表中,根据较大集合的包含性判断来查找记录。 在销售表中,统计 2014 年大客户的每月销售额。 ID Customer SellerId Date Amount 10400 EASTC ..
  • •      •    127 浏览    •   2022-11-07 21:10:42

    等距分箱 

    等距分箱:将变量的取值范围分为k 个等宽的区间,每个区间当作一个分箱,这里只考虑边界,每个箱内的样本量可能不等。 例如,将”Fare”变量等距分箱 A 1 =file('D://titanic ..
  • •      •    124 浏览    •   2022-11-07 10:23:14

    12.1 集合包含性检测 

    在一个表中,根据集合的包含性判断查找记录。 在员工表中,统计一线城市各部门的平均工资。 ID NAME CITY SALARY 1 Rebecca Tianjin 7000 2 Ashley ..
  • •      •    107 浏览    •   2022-11-25 08:58:01

    11.13 函数递归:海盗分金问题 

    递归调用函数解决海盗分金问题。 海盗分金问题: 5 个海盗抢得 100 枚金币,他们按抽签的顺序依次提方案:首先由 1 号提出分配方案,然后 5 人表决,投票要超过半数同意方案才被通过,否则他 ..
  • •      •    110 浏览    •   2022-11-06 21:19:23

    比率 

    比率是指两个变量相除,用于连续型变量 比率也是特征组合的一种方法,特征组合是为了弥补线性模型无法表达非线性性质的不足的补充,有助于提升线性模型的表达能力 注意:在比率计算中,做分母的变量不能有 ..
  • •      •    136 浏览    •   2022-11-05 22:23:07

    变量交互 

    变量交互是指两个变量相乘,可以是数值变量*数值变量,也可以是分类变量*分类变量。 组合特征是特征工程中非常重要的方法之一,它将两个或更多的类别属性组合成一个。当组合的特征要比单个特征更好时,这 ..
  • •      •    106 浏览    •   2022-11-05 09:30:29

    11.12 函数递归:汉诺塔问题 

    递归调用函数解决汉诺塔问题。 汉诺塔问题是递归的经典问题。把 A 杆上的圆盘全部移到 C 杆上,并仍保持原有顺序叠好。每次移动一个圆盘,移动时要始终保持大盘在下,小盘在上。 [图片] 盘子从小 ..
  • •      •    80 浏览    •   2022-11-05 09:27:29

    11.11 查找所有上级引用 

    单表自连接后,查找所有上级引用。 在中国行政区划表中,列出各行政区的所有上级区域。。例如石家庄输出: China,Hebei,Shijiazhuang ID NAME PARENT_ID 1 ..
  • •      •    104 浏览    •   2022-11-04 21:37:50

    数据转换 - 其他变换 

    除了对变量本身做一些数学转换外,也可衍生一些反映和目标变量关系的变量,比如目标阳性样本比例,Odds encoding,log-odds encoding,数值目标均值 例如,泰坦尼克的目标变 ..
  • 单表自连接后,过滤出引用链上有指定值的记录,然后列出上级。 在中国行政区划表中,查询河北省下属行政区。 ID NAME PARENT_ID 1 China 0 11 Beijing 1 12 ..
  • •      •    85 浏览    •   2022-11-04 10:21:20

    11.9 查找上一级引用 

    单表自连接后,仅查找记录的上一级引用。 在中国行政区划表中,查询各行政区的上级区域名称。 ID NAME PARENT_ID 1 China 0 11 Beijing 1 12 Tianjin ..
  • •      •    383 浏览    •   2022-11-03 21:11:36

    变量转换—正切和反正切变换 

    正切和反正切变换是一种值域变换,它将数据在有穷域和无穷域中相互转化 例如,将泰坦尼克数据中的”Fare”变量进行反正切变换 A 1 =file('D://titanic.csv').impor ..
  • •      •    101 浏览    •   2022-11-03 10:32:12

    11.8 遍历目录,汇总所有文件 

    遍历目录,递归调用脚本汇总文件。 遍历指定目录及其子目录下所有文本类型文件,将每个文件中的第 17 行汇总到一个文件中。 [图片] 文本类型文件示例: 16 … 17 Middleware f ..
  • •      •    154 浏览    •   2022-11-03 10:28:06

    11.7 遍历目录下所有文件 

    递归遍历指定目录下的所有文件。 某小学在线教学终端调查表的汇总整理,统计各终端占比。 [图片] ID STUDENT_NAME TERMINAL 1 Rebecca Moore Phone 2 ..
  • •      •    222 浏览    •   2022-11-02 22:14:49

    变量转换—Box-Cox 变换 

    Box-Cox变换是Box和Cox在1964年提出的一种广义幂变换方法,是统计建模中常用的一种数据变换,用于连续量不满足正态分布的情况 Box-Cox变换的一般形式为: [图片] 例如,对房价 ..
  • •      •    104 浏览    •   2022-11-02 09:07:27

    11.6 递归合并字段值 

    下面是某时刻,新冠状病毒世界各地确诊人数的 JSON 数据,要统计世界确诊人数。文件部分数据如下: [ {Region:'USA',Confirmed:[ {Region:'Californi ..
  • •      •    70 浏览    •   2022-11-02 09:08:07

    11.5 递归获取字段值 

    根据 JSON 格式的销售数据,计算 2014 年的总销售额。文件部分数据如下: [ {'YEAR':2013,'MONTH':7,'SALES': [ {'ID':10248,'CUSTOM ..
  • •      •    122 浏览    •   2022-11-01 22:36:32

    变量转换 - 对数变换 

    对数变换一般用于金融数据,可以把指数增长型的数据转化为线性增长 例如: A 1 =[1.26,1.58,2,2.51,3.16,3.98,5.01,6.31,7.94,10] 2 =A1.(l ..
  • •      •    97 浏览    •   2022-11-01 11:01:22

    11.4 查找叶子记录 

    在中国行政区划表中,查询河北省下属区县。部分数据如下: ID NAME PARENT_ID 1 China 0 11 Beijing 1 12 Tianjin 1 13 Hebei 1 … … ..
关注乾学院公众号