图书 •
828 引用 •
203 回帖 •
3 关注
博客
关注
-
上一节中介绍的异常发现方法是将“聚集”在一起的点视为常见点,“分散”的点视为异常点,“聚集”通常是无规则的,只要在多维空间中距离近的点就算“聚集”。不过,有时我们会发现某些场景的“聚集”会有强 ..
-
4.2.1 数据标准化 多维时间序列中各维度的量纲可能不同,计算距离前需要将各维度标准化到同样的量纲条件下,这种将不同量纲的数据转换成统一量纲的数据转换方法称为数据标准化。统计学有很多种数据标 ..
-
工业生产中,可能会有两个或者多个仪表协同工作的情况,如温度和压力,阀门开度和流量等。把多个时间序列形成的序列称为多维时间序列,用矩阵X表示。 [图片] X是m维时间序列,它的第i行是m个时间序 ..
-
原值、变化率、离散度等衍生序列都可以用来发现异常,相应的可以得到报警强度序列,将这些报警强度序列通过某种方式整合起来,使其能够表征最终的报警激烈强度,整合后的报警强度序列称为综合报警强度,用W ..
-
线性、指数、对数、三角函数,这几类衰减函数都有各自的特点,详见下表: [图片]
-
三角衰减函数是指权重随时间呈三角函数衰减,衰减后的权重序列记为Wci。 wcj=[-cos((j-1)*π/k’)/2+0.5]/s s=sum(-cos((j-1)*π/k’)/2+0.5) ..
-
对数衰减函数是指权重随时间呈对数衰减,衰减后的权重序列记为Wgi。 wgj=log(j,k’+1)/s s=sum(log(j,k’+1)) 其中Wgi是Rg[-(k’+1)]i+1的权重序列 ..
-
指数衰减函数是指权重随时间呈指数衰减,衰减后的权重序列记为Wei。 wej=bj-1-k’/s s=sum(bj-1-k’) 其中Wei是Rg[-(k’+1)]i+1的权重序列,b是底数,we ..
-
线性衰减函数是指权重随时间呈线性衰减,衰减后的权重序列记为Wli。 wlj=[(1/k’)*j-1/k’]/s s=sum((1/k’)*j-1/k’) 其中Wli是Rg[-(k’+1)]i+ ..
-
工业生产中,发现异常并不是最终目的,根据异常程度实现报警,提示操作人员完成相应的操作,提高生产效率或者生产安全性才是目的。之前介绍的“异常度”只能描述某个时刻的异常程度,还不具备用来报警的功能 ..
-
波动频率是描述原值波动次数的衍生序列。 通俗的讲,原值每改变一次趋势方向就算是波动一次,即原值每穿越一次主线就算波动一次,波动频率就是统计一段时间内原值穿越主线的次数,即统计波动序列Wv [- ..
-
波动幅度是描述原值波动大小的衍生序列。 通俗的讲,一段时间内最大值与最小值之差就可以作为波动幅度W。 wi=ma-mi 其中ma和mi是X[-l]i内的最大值和最小值。 但这么做会有隐患,当X ..
-
原值的波动可能比较频繁,但整体上呈现某一种趋势,主线就是描述这种趋势的衍生序列。 通俗的讲,将原值平滑后就可以描述原值的趋势。平滑化最常见的手段的就是平均,具体到时间序列就是移动平均。 时间序 ..
-
离散度是描述原值分布情况的衍生序列。 在统计学上经常使用方差来衡量一组数的离散程度,我们也可以延用方差来计算离散度,称为方差方法。 时间序列X的离散度序列S: si=sum((xj-a)2)/ ..
-
变化率是描述原值变化快慢的衍生序列。 通俗地看,变化率可以简单地用时间序列原值在单位时间内的变化差值来表示,变化率C可以这样计算: ci=(xi-xi-l)/l 当l=1时就是原值的差分序列, ..
-
[图片] 再回顾观察这张图,之前介绍过,(d)中的异常情况无法通过考虑时间序列取值是否异常的方法发现,但显然这个(d)中是有异常的,那么又该如何发现呢? 分析(d)的情况,异常原因是因为变化过 ..
-
对于大多数数据来说,百分比阈值调整法都可以满足需求,但有一些特殊数据是它无能为力的,如下图这个时间序列: [图片] 图中时间序列前半段数据都在80附近,后半段突然下降,调整后稳定在73附近,直 ..
-
无论使用上述哪种方法,阈值上限tu、阈值下限td都是学习区间中的某一个数,这就会有一个问题,当xi大于其中的最大值或小于最小值时,xi就一定会被认为是异常。 有时我们希望当xi超限不多时,不认 ..
-
箱线图法、正态统计法、距离法都是用X[-k]i的全部数据学习tu、td,计算复杂多相对高,尤其是距离法,计算复杂度是O(n2)。tu、td是数据中除异常点外的最大和最小值,我们可以用较大的一部 ..
-
数据中远离其他点的数据是不常见数据,比较数据中的每个点与其他所有点的距离(绝对差)之和,以最小距离和作为基准,超过该基准一定倍数的点就是异常值。 找出距离其他点都“不远”的数据,可以认为这些是 ..
-
标准的正态分布,三个标准差(σ)覆盖的范围内,可以覆盖99.7%的数据,那么在 3σ 以外的数据就可以认定为异常点。 [图片] 1个标准差内可以覆盖68%的数据。 [图片] 2个标准差内可以覆 ..
-
箱线图(Box Plot)是由一组或多组连续型定量数据的「最小观测值」、第一四分位数、中位数、第三分位数和「最大观测值」来反映数据的分布情况的统计图,因外形似箱子而得名。 箱线图的外形组成: ..
-
时间序列是指某个观察指标的数值按其发生的时间先后顺序排列而成的数列。如工业上电表每秒测出的电压、每个小时油料的流量、产品每天的产量等,这些都是时间序列。 在统计研究中,常用按时间顺序排列的一组 ..
-
在SPL中svm()中包含了C-SVC,nu-SVC,epsilon-SVR和nu-SVR五种算法,可用于解决分类问题和回归问题。详细的语法和参数说明见函数参考文档http://d.raqso ..
-
训练集和测试集中0/1 类(目标变量)的比例接近一致 A 1 =file('D://titanic.csv').import@qtc() 2 =A1.group@p(Survived) 3 = ..