• •      •    233 浏览    •   2022-12-09 10:09:09

    1.1 时间序列与异常发现 

    时间序列是指某个观察指标的数值按其发生的时间先后顺序排列而成的数列。如工业上电表每秒测出的电压、每个小时油料的流量、产品每天的产量等,这些都是时间序列。 在统计研究中,常用按时间顺序排列的一组 ..
  • •      •    140 浏览    •   2022-11-17 21:22:27

    支持向量机 SVMs 

    在SPL中svm()中包含了C-SVC,nu-SVC,epsilon-SVR和nu-SVR五种算法,可用于解决分类问题和回归问题。详细的语法和参数说明见函数参考文档http://d.raqso ..
  • •      •    116 浏览    •   2022-11-16 21:32:20

    数据集划分 - 分层划分 

    训练集和测试集中0/1 类(目标变量)的比例接近一致 A 1 =file('D://titanic.csv').import@qtc() 2 =A1.group@p(Survived) 3 = ..
  • •      •    144 浏览    •   2022-11-15 22:01:17

    数据集划分 - 随机划分 

    在泰坦尼克数据中按照7:3 比例随机划分训练集和测试集 A 1 =file('D://titanic.csv').import@qtc() 2 =A1.group(rand()<=0.3 ..
  • •      •    108 浏览    •   2022-11-14 21:04:52

    过抽样 

    过抽样是通过增加样本中小类样本的数据量来实现样本均衡。其中较为简单的方式是直接复制小类样本,形成数量上的均衡。 对泰坦尼克样本数据过抽样如下: A 1 =file('D://titanic.c ..
  • •      •    148 浏览    •   2022-11-14 00:08:38

    欠抽样 

    欠抽样是通过减少多数类样本的样本数量来实现样本均衡。其中比较简单直接的方法就是随机去掉一些数据来减少多数类样本的规模。 例如,泰坦尼克数据中目标变量Survived是一个取值为0,1的二值变量 ..
  • •      •    85 浏览    •   2022-11-13 14:06:58

    12.12 与子查询所有结果比较 

    根据一个表中数据,通过与子查询中所有结果比较筛选记录。根据员工表,查询哪些员工的工资比所有销售部员工都要高。 ID NAME DEPT SALARY 1 Rebecca R&D 700 ..
  • •      •    73 浏览    •   2022-11-12 09:36:22

    12.11 匹配的存在性检测 

    在两个表中,根据匹配的存在性检测查找记录。 根据成绩表和学生表,查询两科分数差超过 30 分的学生。 Student ID Class Name … Score StudentID Subje ..
  • •      •    176 浏览    •   2022-11-12 09:34:12

    12.10 简化 SQL 双重否定的一个示例 

    根据一个表中数据,查询与另一个表中能够匹配的记录,在 SQL 处理中通过双重否定可以减少运算量。 根据选课表、课程表和学生表,查询选修了所有课程的学生。 Student ID Name Cla ..
  • •      •    191 浏览    •   2022-11-11 21:45:44

    标注异常值 

    例如,还是titanic.csv中的”Fare”变量,分别以3倍标准差(z=3)和5倍标准差为标准(z=5)对异常值进行标注。 A 1 =file('D://titanic.csv').imp ..
  • •      •    85 浏览    •   2022-11-11 10:38:32

    12.9 匹配的不存在性检测 

    在两个互相关联的表中,根据匹配的不存在性检测记录。 根据成绩表和学生表,查询所有科目均高于 80 分的学生。 Student ID Class Name … Score StudentID S ..
  • •      •    99 浏览    •   2022-11-11 10:14:05

    12.8 外键映射的不存在性检测 

    在两个表中,根据外键映射的不存在性检测查找记录。 根据销售表和客户表,查询 2014 年每个新增客户的销售总额。 Sales ID CustomerID OrderDate … Custome ..
  • •      •    136 浏览    •   2022-11-10 20:30:39

    高偏度数据处理—手动纠偏 

    纠偏,就是通过各种数学转换,使得变量的分布呈现或者近似正态分布,模型的拟合常常会有明显的提升。 常用的数学变换有:对数变换、幂变换(例如开根号、平方等)、倒数变换、指数变换、rank 变换等 ..
  • •      •    87 浏览    •   2022-11-10 09:42:57

    12.7 一个自连接简化示例 

    在一个表中,通过复杂的自连接判断查找数据。 在订单表中,查询同一订单跨度超过一年的订单的销售额。 ID NUMBER AMOUNT DELIVERDATE ARRIVALDATE 10814 ..
  • •      •    95 浏览    •   2022-11-10 09:40:15

    12.6 多字段外键映射的存在性检测 

    在两个表中,根据多字段外键映射的存在性查找记录。 在成绩表和学生表中,统计一班男生的平均分。 Score StudentID Class Subject Score Student ID Cl ..
  • •      •    182 浏览    •   2022-11-09 22:11:06

    低频分类数据处理 

    当分类变量的分类数较多时,可能会存在一些频数极小的类别,例如极少数分类,异常分类,疑似错误分类等情况,这时可以通过合并低频变量来降低分类个数。 例如Titanic.csv中的“Name”是一个 ..
  • •      •    84 浏览    •   2022-11-09 09:41:11

    12.5 非外键匹配性检测的提速 

    在两个表中,根据非外键的匹配性检测查找记录,优化提速。 根据销售表和客户表,查询 2014 年各城市有销售记录的客户数量。 Sales ID CustomerID Date Amount Cu ..
  • •      •    88 浏览    •   2022-11-09 09:31:55

    12.4 非外键的匹配性检测 

    在两个表中,根据非外键的匹配性检测查找记录。 根据成绩表和学生表,查询各班所有某科成绩超过 80 分的学生数量。 Score StudentID Subject Score Student I ..
  • •      •    170 浏览    •   2022-11-08 21:37:11

    等频分箱 

    把变量值按照从小到大的顺序排列,根据数据集样本个数等分为k 部分,每部分当作一个分箱,比如分箱数是 10,则每个箱内包含大约 10% 的样本量。 将”Fare”变量等频分箱 A 1 =file ..
  • •      •    78 浏览    •   2022-11-08 09:01:27

    12.3 外键映射的存在性检测 

    在两个表中,根据外键映射的存在性检测查找记录。 根据选课表和课程表,查询各班有多少学生选修了“Matlab”课程。 Course ID Subject Score SelectCourse I ..
  • •      •    103 浏览    •   2022-11-08 08:59:31

    12.2 较大集合的包含性检测 

    在一个表中,根据较大集合的包含性判断来查找记录。 在销售表中,统计 2014 年大客户的每月销售额。 ID Customer SellerId Date Amount 10400 EASTC ..
  • •      •    124 浏览    •   2022-11-07 21:10:42

    等距分箱 

    等距分箱:将变量的取值范围分为k 个等宽的区间,每个区间当作一个分箱,这里只考虑边界,每个箱内的样本量可能不等。 例如,将”Fare”变量等距分箱 A 1 =file('D://titanic ..
  • •      •    122 浏览    •   2022-11-07 10:23:14

    12.1 集合包含性检测 

    在一个表中,根据集合的包含性判断查找记录。 在员工表中,统计一线城市各部门的平均工资。 ID NAME CITY SALARY 1 Rebecca Tianjin 7000 2 Ashley ..
  • •      •    106 浏览    •   2022-11-25 08:58:01

    11.13 函数递归:海盗分金问题 

    递归调用函数解决海盗分金问题。 海盗分金问题: 5 个海盗抢得 100 枚金币,他们按抽签的顺序依次提方案:首先由 1 号提出分配方案,然后 5 人表决,投票要超过半数同意方案才被通过,否则他 ..
  • •      •    109 浏览    •   2022-11-06 21:19:23

    比率 

    比率是指两个变量相除,用于连续型变量 比率也是特征组合的一种方法,特征组合是为了弥补线性模型无法表达非线性性质的不足的补充,有助于提升线性模型的表达能力 注意:在比率计算中,做分母的变量不能有 ..
关注乾学院公众号