• •      •    394 浏览    •   2022-12-20 07:17:54

    2.3 离散度 

    离散度是描述原值分布情况的衍生序列。 在统计学上经常使用方差来衡量一组数的离散程度,我们也可以延用方差来计算离散度,称为方差方法。 时间序列X的离散度序列S: si=sum((xj-a)2)/ ..
  • •      •    331 浏览    •   2022-12-19 08:54:25

    2.2 变化率 

    变化率是描述原值变化快慢的衍生序列。 通俗地看,变化率可以简单地用时间序列原值在单位时间内的变化差值来表示,变化率C可以这样计算: ci=(xi-xi-l)/l 当l=1时就是原值的差分序列, ..
  • •      •    260 浏览    •   2022-12-18 09:18:43

    2.1 衍生时间序列发现异常 

    [图片] 再回顾观察这张图,之前介绍过,(d)中的异常情况无法通过考虑时间序列取值是否异常的方法发现,但显然这个(d)中是有异常的,那么又该如何发现呢? 分析(d)的情况,异常原因是因为变化过 ..
  • •      •    245 浏览    •   2022-12-17 08:56:17

    1.7 通道阈值调整 

    对于大多数数据来说,百分比阈值调整法都可以满足需求,但有一些特殊数据是它无能为力的,如下图这个时间序列: [图片] 图中时间序列前半段数据都在80附近,后半段突然下降,调整后稳定在73附近,直 ..
  • •      •    366 浏览    •   2022-12-16 09:37:09

    1.6 百分比阈值调整 

    无论使用上述哪种方法,阈值上限tu、阈值下限td都是学习区间中的某一个数,这就会有一个问题,当xi大于其中的最大值或小于最小值时,xi就一定会被认为是异常。 有时我们希望当xi超限不多时,不认 ..
  • •      •    248 浏览    •   2022-12-15 08:52:20

    1.5 极值 

    箱线图法、正态统计法、距离法都是用X[-k]i的全部数据学习tu、td,计算复杂多相对高,尤其是距离法,计算复杂度是O(n2)。tu、td是数据中除异常点外的最大和最小值,我们可以用较大的一部 ..
  • •      •    288 浏览    •   2022-12-14 09:06:59

    1.4 距离法 

    数据中远离其他点的数据是不常见数据,比较数据中的每个点与其他所有点的距离(绝对差)之和,以最小距离和作为基准,超过该基准一定倍数的点就是异常值。 找出距离其他点都“不远”的数据,可以认为这些是 ..
  • •      •    396 浏览    •   2022-12-13 09:02:17

    1.3 正态统计法 

    标准的正态分布,三个标准差(σ)覆盖的范围内,可以覆盖99.7%的数据,那么在 3σ 以外的数据就可以认定为异常点。 [图片] 1个标准差内可以覆盖68%的数据。 [图片] 2个标准差内可以覆 ..
  • •      •    435 浏览    •   2022-12-13 09:12:41

    1.2 箱线图法 

    箱线图(Box Plot)是由一组或多组连续型定量数据的「最小观测值」、第一四分位数、中位数、第三分位数和「最大观测值」来反映数据的分布情况的统计图,因外形似箱子而得名。 箱线图的外形组成: ..
  • •      •    431 浏览    •   2022-12-09 10:09:09

    1.1 时间序列与异常发现 

    时间序列是指某个观察指标的数值按其发生的时间先后顺序排列而成的数列。如工业上电表每秒测出的电压、每个小时油料的流量、产品每天的产量等,这些都是时间序列。 在统计研究中,常用按时间顺序排列的一组 ..
  • •      •    311 浏览    •   2022-11-17 21:22:27

    支持向量机 SVMs 

    在SPL中svm()中包含了C-SVC,nu-SVC,epsilon-SVR和nu-SVR五种算法,可用于解决分类问题和回归问题。详细的语法和参数说明见函数参考文档http://d.raqso ..
  • •      •    290 浏览    •   2022-11-16 21:32:20

    数据集划分 - 分层划分 

    训练集和测试集中0/1 类(目标变量)的比例接近一致 A 1 =file('D://titanic.csv').import@qtc() 2 =A1.group@p(Survived) 3 = ..
  • •      •    335 浏览    •   2022-11-15 22:01:17

    数据集划分 - 随机划分 

    在泰坦尼克数据中按照7:3 比例随机划分训练集和测试集 A 1 =file('D://titanic.csv').import@qtc() 2 =A1.group(rand()<=0.3 ..
  • •      •    294 浏览    •   2022-11-14 21:04:52

    过抽样 

    过抽样是通过增加样本中小类样本的数据量来实现样本均衡。其中较为简单的方式是直接复制小类样本,形成数量上的均衡。 对泰坦尼克样本数据过抽样如下: A 1 =file('D://titanic.c ..
  • •      •    329 浏览    •   2022-11-14 00:08:38

    欠抽样 

    欠抽样是通过减少多数类样本的样本数量来实现样本均衡。其中比较简单直接的方法就是随机去掉一些数据来减少多数类样本的规模。 例如,泰坦尼克数据中目标变量Survived是一个取值为0,1的二值变量 ..
  • •      •    232 浏览    •   2022-11-13 14:06:58

    12.12 与子查询所有结果比较 

    根据一个表中数据,通过与子查询中所有结果比较筛选记录。根据员工表,查询哪些员工的工资比所有销售部员工都要高。 ID NAME DEPT SALARY 1 Rebecca R&D 700 ..
  • •      •    253 浏览    •   2022-11-12 09:36:22

    12.11 匹配的存在性检测 

    在两个表中,根据匹配的存在性检测查找记录。 根据成绩表和学生表,查询两科分数差超过 30 分的学生。 Student ID Class Name … Score StudentID Subje ..
  • •      •    375 浏览    •   2022-11-12 09:34:12

    12.10 简化 SQL 双重否定的一个示例 

    根据一个表中数据,查询与另一个表中能够匹配的记录,在 SQL 处理中通过双重否定可以减少运算量。 根据选课表、课程表和学生表,查询选修了所有课程的学生。 Student ID Name Cla ..
  • •      •    363 浏览    •   2022-11-11 21:45:44

    标注异常值 

    例如,还是titanic.csv中的”Fare”变量,分别以3倍标准差(z=3)和5倍标准差为标准(z=5)对异常值进行标注。 A 1 =file('D://titanic.csv').imp ..
  • •      •    256 浏览    •   2022-11-11 10:38:32

    12.9 匹配的不存在性检测 

    在两个互相关联的表中,根据匹配的不存在性检测记录。 根据成绩表和学生表,查询所有科目均高于 80 分的学生。 Student ID Class Name … Score StudentID S ..
  • •      •    267 浏览    •   2022-11-11 10:14:05

    12.8 外键映射的不存在性检测 

    在两个表中,根据外键映射的不存在性检测查找记录。 根据销售表和客户表,查询 2014 年每个新增客户的销售总额。 Sales ID CustomerID OrderDate … Custome ..
  • •      •    349 浏览    •   2022-11-10 20:30:39

    高偏度数据处理—手动纠偏 

    纠偏,就是通过各种数学转换,使得变量的分布呈现或者近似正态分布,模型的拟合常常会有明显的提升。 常用的数学变换有:对数变换、幂变换(例如开根号、平方等)、倒数变换、指数变换、rank 变换等 ..
  • •      •    255 浏览    •   2022-11-10 09:42:57

    12.7 一个自连接简化示例 

    在一个表中,通过复杂的自连接判断查找数据。 在订单表中,查询同一订单跨度超过一年的订单的销售额。 ID NUMBER AMOUNT DELIVERDATE ARRIVALDATE 10814 ..
  • •      •    272 浏览    •   2022-11-10 09:40:15

    12.6 多字段外键映射的存在性检测 

    在两个表中,根据多字段外键映射的存在性查找记录。 在成绩表和学生表中,统计一班男生的平均分。 Score StudentID Class Subject Score Student ID Cl ..
  • •      •    362 浏览    •   2022-11-09 22:11:06

    低频分类数据处理 

    当分类变量的分类数较多时,可能会存在一些频数极小的类别,例如极少数分类,异常分类,疑似错误分类等情况,这时可以通过合并低频变量来降低分类个数。 例如Titanic.csv中的“Name”是一个 ..
关注乾学院公众号