>
  • •      •    362 浏览    •   2022-12-23 08:59:23

    2.6 波动频率 

    波动频率是描述原值波动次数的衍生序列。 通俗的讲,原值每改变一次趋势方向就算是波动一次,即原值每穿越一次主线就算波动一次,波动频率就是统计一段时间内原值穿越主线的次数,即统计波动序列Wv [- ..
  • •      •    420 浏览    •   2022-12-22 09:37:35

    2.5 波动幅度 

    波动幅度是描述原值波动大小的衍生序列。 通俗的讲,一段时间内最大值与最小值之差就可以作为波动幅度W。 wi=ma-mi 其中ma和mi是X[-l]i内的最大值和最小值。 但这么做会有隐患,当X ..
  • •      •    410 浏览    •   2022-12-21 08:55:26

    2.4 主线 

    原值的波动可能比较频繁,但整体上呈现某一种趋势,主线就是描述这种趋势的衍生序列。 通俗的讲,将原值平滑后就可以描述原值的趋势。平滑化最常见的手段的就是平均,具体到时间序列就是移动平均。 时间序 ..
  • •      •    505 浏览    •   2022-12-20 07:17:54

    2.3 离散度 

    离散度是描述原值分布情况的衍生序列。 在统计学上经常使用方差来衡量一组数的离散程度,我们也可以延用方差来计算离散度,称为方差方法。 时间序列X的离散度序列S: si=sum((xj-a)2)/ ..
  • •      •    454 浏览    •   2022-12-19 08:54:25

    2.2 变化率 

    变化率是描述原值变化快慢的衍生序列。 通俗地看,变化率可以简单地用时间序列原值在单位时间内的变化差值来表示,变化率C可以这样计算: ci=(xi-xi-l)/l 当l=1时就是原值的差分序列, ..
  • •      •    372 浏览    •   2022-12-18 09:18:43

    2.1 衍生时间序列发现异常 

    [图片] 再回顾观察这张图,之前介绍过,(d)中的异常情况无法通过考虑时间序列取值是否异常的方法发现,但显然这个(d)中是有异常的,那么又该如何发现呢? 分析(d)的情况,异常原因是因为变化过 ..
  • •      •    352 浏览    •   2022-12-17 08:56:17

    1.7 通道阈值调整 

    对于大多数数据来说,百分比阈值调整法都可以满足需求,但有一些特殊数据是它无能为力的,如下图这个时间序列: [图片] 图中时间序列前半段数据都在80附近,后半段突然下降,调整后稳定在73附近,直 ..
  • •      •    527 浏览    •   2022-12-16 09:37:09

    1.6 百分比阈值调整 

    无论使用上述哪种方法,阈值上限tu、阈值下限td都是学习区间中的某一个数,这就会有一个问题,当xi大于其中的最大值或小于最小值时,xi就一定会被认为是异常。 有时我们希望当xi超限不多时,不认 ..
  • •      •    673 浏览    •   2024-09-25 17:10:43

    7.4 全文索引 

    SQL SELECT * FROM Customers WHERE CustomerID like '%ANA%' SPL A 1 =file(“Customers.ctx”).open() ..
  • •      •    666 浏览    •   2024-08-09 11:33:26

    7.3 批量查找 

    SQL SELECT * FROM Customers WHERE CustomerID in ( SELECT DISTINCT CustomerID FROM Orders WHERE O ..
  • •      •    348 浏览    •   2022-12-15 08:52:20

    1.5 极值 

    箱线图法、正态统计法、距离法都是用X[-k]i的全部数据学习tu、td,计算复杂多相对高,尤其是距离法,计算复杂度是O(n2)。tu、td是数据中除异常点外的最大和最小值,我们可以用较大的一部 ..
  • •      •    621 浏览    •   2024-08-09 11:31:21

    7.2 区间查找 

    SQL SELECT * FROM Orders WHERE OrderDate>='2021-12-29' and OrderDate<='2021-12-31' SPL 对于数 ..
  • •      •    405 浏览    •   2022-12-14 09:06:59

    1.4 距离法 

    数据中远离其他点的数据是不常见数据,比较数据中的每个点与其他所有点的距离(绝对差)之和,以最小距离和作为基准,超过该基准一定倍数的点就是异常值。 找出距离其他点都“不远”的数据,可以认为这些是 ..
  • •      •    635 浏览    •   2024-08-09 11:29:40

    7.1 等值查找 

    SQL SELECT * FROM Orders WHERE CustomerID='MAISD' SPL 像 CustomerID 这种字符串 ID 类的主键字段,一般常用的查找方式都是等值 ..
  • •      •    556 浏览    •   2022-12-13 09:02:17

    1.3 正态统计法 

    标准的正态分布,三个标准差(σ)覆盖的范围内,可以覆盖99.7%的数据,那么在 3σ 以外的数据就可以认定为异常点。 [图片] 1个标准差内可以覆盖68%的数据。 [图片] 2个标准差内可以覆 ..
  • •      •    623 浏览    •   2022-12-13 09:12:41

    1.2 箱线图法 

    箱线图(Box Plot)是由一组或多组连续型定量数据的「最小观测值」、第一四分位数、中位数、第三分位数和「最大观测值」来反映数据的分布情况的统计图,因外形似箱子而得名。 箱线图的外形组成: ..
  • •      •    621 浏览    •   2024-08-09 11:19:14

    6.2 应用实践 

    SQL WITH a AS( SELECT sum(Amount) Amount FROM Orders2021 WHERE Amount>500 or Quantity>50) ..
  • •      •    679 浏览    •   2024-08-09 11:18:03

    6.1 基本概念 

    SQL SELECT ShipVia,sum(Quantity) Quantity FROM Orders2021 GROUP BY ShipVia ORDER BY ShipVia SELE ..
  • •      •    759 浏览    •   2024-09-25 17:07:04

    5.4 用子表过滤主表 

    SQL SELECT City,sum(Amount) Amount FROM Customers INNER JOIN Orders2021 ON Orders2021.CustomerID ..
  • •      •    558 浏览    •   2022-12-09 10:09:09

    1.1 时间序列与异常发现 

    时间序列是指某个观察指标的数值按其发生的时间先后顺序排列而成的数列。如工业上电表每秒测出的电压、每个小时油料的流量、产品每天的产量等,这些都是时间序列。 在统计研究中,常用按时间顺序排列的一组 ..
  • •      •    697 浏览    •   2024-09-25 17:03:31

    5.3 用主表过滤子表 

    SQL SELECT City,ProductID, sum(Amount) Amount FROM Customers INNER JOIN Orders2021 ON Orders2021 ..
  • •      •    633 浏览    •   2024-08-09 11:01:51

    5.2 计算交并集 

    SQL SELECT Distinct CustomerID FROM Orders2020 UNION SELECT Distinct CustomerID FROM Orders2021 ..
  • Rapid Miner RapidMiner是一个开源的数据挖掘软件,由Java语言编写而成,提供一些可扩展的数据分析挖掘算法,旨在帮助开发人员更加方便快捷地创建智能应用程序。该款工具最大的好 ..
  • •      •    1,057 浏览    •   2023-02-02 11:32:58

    13 款轻量级桌面数据挖掘工具 

    Weka Weka基于Java开发,是一款开源且免费的软件。WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则 ..
  • •      •    641 浏览    •   2024-09-25 17:01:19

    5.1 有序归并 

    本章中要尝试更大数据量,将订单表按年分别存储成不同的表,表名为 Orders+ 年份,如 Orders2021,Orders2022,依此类推,表结构均和 Orders 相同 SQL SELE ..
关注乾学院公众号