-
SQL SELECT * FROM Orders WHERE OrderDate>='2021-12-29' and OrderDate<='2021-12-31' SPL 对于数 ..
-
数据中远离其他点的数据是不常见数据,比较数据中的每个点与其他所有点的距离(绝对差)之和,以最小距离和作为基准,超过该基准一定倍数的点就是异常值。 找出距离其他点都“不远”的数据,可以认为这些是 ..
-
SQL SELECT * FROM Orders WHERE CustomerID='MAISD' SPL 像 CustomerID 这种字符串 ID 类的主键字段,一般常用的查找方式都是等值 ..
-
标准的正态分布,三个标准差(σ)覆盖的范围内,可以覆盖99.7%的数据,那么在 3σ 以外的数据就可以认定为异常点。 [图片] 1个标准差内可以覆盖68%的数据。 [图片] 2个标准差内可以覆 ..
-
箱线图(Box Plot)是由一组或多组连续型定量数据的「最小观测值」、第一四分位数、中位数、第三分位数和「最大观测值」来反映数据的分布情况的统计图,因外形似箱子而得名。 箱线图的外形组成: ..
-
SQL WITH a AS( SELECT sum(Amount) Amount FROM Orders2021 WHERE Amount>500 or Quantity>50) ..
-
SQL SELECT ShipVia,sum(Quantity) Quantity FROM Orders2021 GROUP BY ShipVia ORDER BY ShipVia SELE ..
-
SQL SELECT City,sum(Amount) Amount FROM Customers INNER JOIN Orders2021 ON Orders2021.CustomerID ..
-
时间序列是指某个观察指标的数值按其发生的时间先后顺序排列而成的数列。如工业上电表每秒测出的电压、每个小时油料的流量、产品每天的产量等,这些都是时间序列。 在统计研究中,常用按时间顺序排列的一组 ..
-
第1 章 时间序列的异常发现 1.1 [链接] 1.2 [链接] 1.3 [链接] 1.4 [链接] 1.5 [链接] 1.6 [链接] 1.7 [链接] 第2 章 衍生时间序列 2.1 [链 ..
-
SQL SELECT City,ProductID, sum(Amount) Amount FROM Customers INNER JOIN Orders2021 ON Orders2021 ..
-
SQL SELECT Distinct CustomerID FROM Orders2020 UNION SELECT Distinct CustomerID FROM Orders2021 ..
-
在统计分析应用中,从明细数据计算出来的各种指标是支撑业务的重要数据。但是,要做到快速而且灵活的多指标计算,后台数据源面临多个难题。 多指标计算的一个难题是涉及的明细数据量非常大。政府、金融、能 ..
-
市场上绝大多数(甚至可以说是全部)云数据仓库都是基于 SQL 的,毕竟数据仓库的主要功能是分析计算,其它 NoSQL 技术的优势主要在 TP,在 AP 方面远远不敌 SQL。参与竞争的云服务商 ..
-
本章中要尝试更大数据量,将订单表按年分别存储成不同的表,表名为 Orders+ 年份,如 Orders2021,Orders2022,依此类推,表结构均和 Orders 相同 SQL SELE ..
-
SQL SELECT Customers.CustomerID,CustomerName,Region,City,Amount FROM Customers INNER JOIN Orders ..
-
很多大机构都会有个中央数据仓库负责向应用提供数据服务。随着业务的发展,中央数据仓库的负载在持续增加。一方面,数仓是前端应用的数据后台,而前端应用不断增多,用户访问的并发数也不断增长。另一方面, ..
-
SQL SELECT a.CustomerID,a.OrderDate,a.ProductID,a.Quantity,a.Unit, a.Price,a.Amount,a.EmployeeID ..
-
对于已经序号化的维表,可以利用对位序列来处理维表上的过滤。 原理:产生一个与维表同样长度的序列,其成员是布尔值,满足条件的维表记录对应 true,否则对应 false。然后在事实表中用已经序号 ..
-
[链接]4.5.1 过滤后复用索引 SQL SELECT Suppliers.Region,sum(Amount) Amount FROM Orders LEFT JOIN Products ..
-
主键是自然数序号的维表,可以直接用序号定位实现关联,不必建索引,避免计算和比对 HASH 值,性能更好。 主键不是自然数序号的维表,可以事先转换成序号。同时把事实表中的对应维字段值也转换成相应 ..
-
无监督实时异常发现算法 算法背景 实际生产中会定时产生一些数据(比如:炼油设备的压力、液位、电气设备的电流、电压等),称为时间序列。生产活动发生异常时,很可能会有前兆反映在这些时间序列中,也就 ..
-
算法背景 之前介绍了有边界的线性拟合算法,《有边界的线性拟合算法》,它的约束条件是所有系数都须在[0,1]范围内,但实际生产环境不仅仅是这个基本的限制。 已知条件 自变量矩阵X,在生产环境中称 ..
-
有边界的线性拟合算法 已知自变量矩阵X和因变量矩阵Y,两者存在线性关系,但系数被限制在一个范围内,这个范围称为边界,试求出该边界范围内的最佳系数矩阵。 [图片] 其中X是k*m矩阵,k是样本数 ..
-
一个集合X中可能存在过大或过小的异常值,希望计算一个范围,剔除集合X中过大或过小的异常值,这个范围的上下限就是阈值,较大值称为阈值上限,记为threshold_up,较小值称为阈值下限,记为t ..