图书 •
828 引用 •
203 回帖 •
3 关注
博客
关注
-
[图片] 再回顾观察这张图,之前介绍过,(d)中的异常情况无法通过考虑时间序列取值是否异常的方法发现,但显然这个(d)中是有异常的,那么又该如何发现呢? 分析(d)的情况,异常原因是因为变化过 ..
-
对于大多数数据来说,百分比阈值调整法都可以满足需求,但有一些特殊数据是它无能为力的,如下图这个时间序列: [图片] 图中时间序列前半段数据都在80附近,后半段突然下降,调整后稳定在73附近,直 ..
-
无论使用上述哪种方法,阈值上限tu、阈值下限td都是学习区间中的某一个数,这就会有一个问题,当xi大于其中的最大值或小于最小值时,xi就一定会被认为是异常。 有时我们希望当xi超限不多时,不认 ..
-
箱线图法、正态统计法、距离法都是用X[-k]i的全部数据学习tu、td,计算复杂多相对高,尤其是距离法,计算复杂度是O(n2)。tu、td是数据中除异常点外的最大和最小值,我们可以用较大的一部 ..
-
数据中远离其他点的数据是不常见数据,比较数据中的每个点与其他所有点的距离(绝对差)之和,以最小距离和作为基准,超过该基准一定倍数的点就是异常值。 找出距离其他点都“不远”的数据,可以认为这些是 ..
-
标准的正态分布,三个标准差(σ)覆盖的范围内,可以覆盖99.7%的数据,那么在 3σ 以外的数据就可以认定为异常点。 [图片] 1个标准差内可以覆盖68%的数据。 [图片] 2个标准差内可以覆 ..
-
箱线图(Box Plot)是由一组或多组连续型定量数据的「最小观测值」、第一四分位数、中位数、第三分位数和「最大观测值」来反映数据的分布情况的统计图,因外形似箱子而得名。 箱线图的外形组成: ..
-
时间序列是指某个观察指标的数值按其发生的时间先后顺序排列而成的数列。如工业上电表每秒测出的电压、每个小时油料的流量、产品每天的产量等,这些都是时间序列。 在统计研究中,常用按时间顺序排列的一组 ..
-
第1 章 时间序列的异常发现 1.1 [链接] 1.2 [链接] 1.3 [链接] 1.4 [链接] 1.5 [链接] 1.6 [链接] 1.7 [链接] 第2 章 衍生时间序列 2.1 [链 ..
-
[链接] [链接]4.9 列式计算 结构化数据通常以记录为基本单位,数据表则是记录的集合,针对数据表的计算通常也是以记录为基础的,即每次针对一条记录实施相应的计算,然后再针对下一条记录计算。比 ..
-
[链接] [链接]5.2 DISTINCT 和 COUNT(DISTINCT) SQL 中的 DISTINCT 和 COUNT(DISTINCT) 一直是拖累性能的常见问题。DISTINCT ..
-
[链接] [链接]1.6 内表索引 序表上的索引都是针对主键的,而主键取值要求有在全表中的唯一性。如果被查找键不是主键甚至取值不唯一而无法建立为主键呢? 我们考查前面这些算法的工作原理,二分法 ..
-
[链接] [链接]6.4 时间键 维表数据相对固定,但有时也会变动,如果不处理这个变化,就可能导致统计出错。比如想按产品产地分组汇总一段时间内的订单销售额,而产品产地可能在这段时间内发生过变化 ..
-
[链接] [链接]2.6 复组表 OLAP 业务使用的历史数据一般不会有大量频繁的更新动作,但有时历史数据的大批删除却是必要的。年代久远的数据已经失去查询分析的意义,如果继续存放在数据表中,即 ..
-
[链接] [链接]9.7 多作业负载均衡 和单机上的多线程并行类似,第一节中讲述的多机并行框架也会等待最慢的分机返回结果后才会继续。我们可以尽量使分机计算的数据量更均衡,但并不能保证各分机执行 ..
-
[链接] [链接]9.6 备胎式容错 事先把数据加载进内存,能够获得比外存好得多的性能。数据量太大超出单机内存时,也可以利用集群的分机分段加载,同时分担计算量。我们前述的多机并行框架以及集群表 ..
-
[链接] [链接]9.5 冗余式容错 做集群运算时必须要考虑容错。单机时如果发生机器失效,那运算也就失效了。而集群时仅有少量几个分机失效仍然可能让集群继续有工作能力。 要容错必须要用冗余。如果 ..
-
[链接] [链接]9.4 分段维表 维表需要被随机访问,而外存不具备这样的能力,所以我们尽量要把维表装入内存。如果维表大到一台分机的内存装不下时,我们就试图在多个分机的内存中加载它。 较大的维 ..
-
[链接] [链接]9.3 复写维表 我们来讨论外键关联,先看小维表的情况,也就是可以把维表装入分机内存的情况。 那么,把维表装入哪个分机的内存呢? 在所有分机都装入一份。 集群下的事实表很大, ..
-
[链接] [链接]9.2 集群复组表 对于数据表上的常规运算,使用 fork 写起来有些麻烦,SPL 也提供了集群表和集群游标来简化代码,但情况要比单机复杂一些。 回顾第二章出现的复组表概念。 ..
-
[链接] [链接]9.1 计算与数据分布 数据量很大时,可以采用多台机器来分担计算任务,也就是集群。参与计算的机器称为分机,通常还会有个控制程序,负责管理分配各分机的计算任务并汇总计算结果,称 ..
-
[链接] [链接]8.6 内存标签异动 标签数据可能随时间变化,比如可能每个月会对客户重新贴一次标签,而我们还希望能针对过去某个月的标签情况进行查询,就需要保存住每个时间点的标签信息。而多维分 ..
-
[链接] [链接]8.5 标签位维度 标签维度是指取值只有是与否(或 true/false)两种的枚举维度,比如人员是否结婚、是否上过大学、是否拥有信用卡、…,也称二值维度。标签维度很常见,对 ..
-
[链接] [链接]8.4 布尔维序列 我们在前面使用对位序列提高维表过滤后的关联,这种技术还可以用于提高枚举型维度的切片性能。 所谓枚举型维度,是指维度的取值是事先已经确定的有限的几种值,如性 ..
-
[链接] [链接]8.3 冗余排序 无切片条件的汇总运算总要涉及全量数据。如果没有预先汇总,也没什么办法减少计算量了。但有切片条件时,如果数据能合理组织,就未必要遍历所有数据了。 简单在维度上 ..