• 概述 SPL主要是为了解决SQL的困难(复杂任务很难写且跑得慢、跨源计算难、依赖存储过程等)而设计的,其应用场景也与SQL类似,一般会配合应用程序工作,且能支持大数据,包括高性能运算和并行运算 ..
  • •      •    190 浏览    •   2023-01-21 12:04:12

    回归模型评估 - 结果对照图 

    取一定数量的样本,将真实值和预测值的结果画在一张图上即为结果对照图。 结果对照图可以直观的展示预测结果和真实值之间的差距和走势。 A 1 =T('houseprice_result.xls') ..
  • •      •    177 浏览    •   2023-01-21 12:03:15

    回归模型评估 - 残差图 

    残差residual=真实值-预测值 计算houseprice_result.xls中的残差并画图 A 1 =T('houseprice_result.xls') 2 =A1.derive(S ..
  • •      •    159 浏览    •   2023-01-19 21:25:29

    伪自变量的识别 

    在建模数据中经常遇到这样一种变量,其本身是受因变量影响的(即它不但不是因变量的影响因素,反而因变量是它的影响因素),若该变量被作为自变量添加入模型,则会造成其他自变量不能进入模型。同时,由于这 ..
  • •      •    159 浏览    •   2023-01-17 22:36:47

    使用统计检验 p 值选择变量 

    使用统计假设检验的方法也可以判断自变量对因变量的影响是否显著,在SPL中提供了几种统计检验p值计算的函数,可以根据数据情况选择合适的检验形式,函数用法见p 值 - 乾学院 (raqsoft.c ..
  • •      •    177 浏览    •   2023-01-16 21:55:45

    使用相关系数选择变量 

    相关系数是度量两个变量之间相关程度的统计量,常用的有Pearson相关系数和Spearman相关系数,两者值均在[-1,1]之间分布,当其值为0时两个变量不想关,当其值为1或-1时,表示两个变 ..
  • •      •    130 浏览    •   2023-01-16 17:33:00

    6.4 质量守恒约束下的线性拟合 

    有边界的线性拟合方法保证拟合时收率被限制在边界内,误差限制法保证收率不偏离基础收率太远,现在只有约束2(所有出料对某一种进料的收率和等于1)还没有满足,本节将介绍一种线性变换的方法来满足此约束 ..
  • •      •    196 浏览    •   2023-01-15 10:20:29

    6.3 误差限制法计算边界 

    为了满足约束3(收率不能偏离基础收率太远),将收率与基础收率的差称为偏差收率,记为WE。 WE=W-B 收率W范围是[0,1],基础收率B是固定的,偏差收率WE的理论最大范围是[-1,1],但 ..
  • •      •    154 浏览    •   2023-01-14 08:51:27

    6.2 有边界的线性拟合 

    在积累了一些进料和出料的样本数据后,我们希望计算出收率矩阵。 如果没有任何约束条件,用最小二乘法就可以得到收率W。 W=linefit(X,Y) 其中linefit(…)是最小二乘线性拟合函数 ..
  • •      •    126 浏览    •   2023-01-13 09:04:22

    6.1 收率 

    工业生产活动的目标是利用原料生产产品,从而产生利润。原料经过一系列加工过程,包括物理反应和化学反应,最终形成产品,生产的理想状态是原料到产品的转换率是确定的,工厂想生产多少产品就知道需要准备多 ..
  • •      •    105 浏览    •   2023-01-12 09:21:10

    5.8 时间序列相似度 

    对于时间序列来说,比较两个时间序列的相似性是一个很普遍的任务。通俗来说,两个时间序列的数据越接近,它们的图像“长得越像”,两个时间序列就越相似,而形容它们“长得像”的程度就是相似度,用sm表示 ..
  • 一、问题提出 时间序列数据主要由电力行业、化工行业、气象行业、地理信息等各类型实时监测、检查与分析设备所采集、产生的数据,这些工业数据的典型特点是:产生频率快(每一个监测点一秒钟内可产生多条数 ..
  • •      •    89 浏览    •   2023-01-11 08:37:54

    5.7 发现不稳定段 

    时间序列中,如果某一时段内的数据变化不大,我们称之为稳定段;某一时段内数据快速上升或者下降,我们称之为不稳定段;不稳定段通常是前一段稳定段的结束,也是后一段稳定段的开始,发现不稳定段可以确定每 ..
  • •      •    120 浏览    •   2023-01-10 08:57:05

    5.6 连续多形状发现 

    我们已经实现发现单形状曲线段的方法,有时我们还需要发现两种形状甚至更多形状连续出现的复合形状,比如先下降再平稳、先上升再平稳再下降等等。 还以之前的时间序列为例,找出先下降再平稳的曲线段。下图 ..
  • •      •    91 浏览    •   2023-01-09 08:31:22

    5.5 形状发现举例 

    1. 筛选取值在[90,95]之间的曲线段 不需要计算特征指数,也不用投射参数。 参数设置: 特征指数名组合Nm Nm=[“Value”] 取值范围记Ag Ag=[[90,95]] 形状长度范 ..
  • •      •    130 浏览    •   2023-01-08 08:26:14

    5.4 形状发现过程 

    有了前面的准备工作,我们就可以实现形状发现任务了。 先设定参数: 特征指数名组合记为Nm Nm=[f1,f2,…,fm] 其中fi是第i个特征指数名。 特征指数组合对应的取值范围记为Ag。 A ..
  • •      •    190 浏览    •   2023-01-07 08:23:45

    5.3 参数反向标准化 

    利用时间序列X计算出相关的特征指数,组成序表T: X f(1) f(2) … x1 f(1)1 f(2)1 … x2 f(1)2 f(2)2 … … … … … xn f(1)n f(2)n ..
  • •      •    150 浏览    •   2023-01-06 07:47:51

    5.2 特征指数 

    时间序列X: X= [x1,x2,…,xn] 特征指数是表征时间序列走势的原子化特征,数学方法有无数种,本着奥卡姆剃刀原理,即用简单的方法能解决的问题就不复杂化。这里要介绍的特征指数的计算方法 ..
  • •      •    175 浏览    •   2023-01-05 08:54:31

    5.1 形状与走势特征 

    时间序列的走势在一定程度上能反应实际生产状况,比如走势平稳的曲线是正常情况,快速上升或者下降意味着生产状况不稳定,可能有异常情况发生。平稳、上升、下降在时间序列走势图中表现为某种形状,从历史数 ..
  • •      •    1,076 浏览    •   2023-01-04 09:12:46

    4.5 空间离散度 

    多维空间中的点可能是“聚集”的,也可能是散布在空间中的,怎么衡量空间中点分布的“离散程度”呢? [图片][图片] 观察这两幅图,第一幅图有明显的聚集效应,多数点“聚集”在下方,少数点散布在上方 ..
  • •      •    287 浏览    •   2023-01-03 08:32:54

    4.4 多维聚合 

    单维度异常发现算法能够得到单个时间序列的报警强度,通过某种方法对多个维度的报警强度进行“聚合”,就能得到多维时间序列的报警强度。我们仍然介绍简单朴素的方法来完成“聚合”,那就是对各维度加权平均 ..
  • •      •    59 浏览    •   2023-01-02 08:27:34

    4.3 多维衍生 

    上一节中介绍的异常发现方法是将“聚集”在一起的点视为常见点,“分散”的点视为异常点,“聚集”通常是无规则的,只要在多维空间中距离近的点就算“聚集”。不过,有时我们会发现某些场景的“聚集”会有强 ..
  • •      •    74 浏览    •   2023-01-01 08:15:32

    4.2 多维联合 

    4.2.1 数据标准化 多维时间序列中各维度的量纲可能不同,计算距离前需要将各维度标准化到同样的量纲条件下,这种将不同量纲的数据转换成统一量纲的数据转换方法称为数据标准化。统计学有很多种数据标 ..
  • •      •    100 浏览    •   2022-12-31 09:42:14

    4.1 多维时间序列和异常发现 

    工业生产中,可能会有两个或者多个仪表协同工作的情况,如温度和压力,阀门开度和流量等。把多个时间序列形成的序列称为多维时间序列,用矩阵X表示。 [图片] X是m维时间序列,它的第i行是m个时间序 ..
  • •      •    169 浏览    •   2022-12-30 08:47:25

    3.7 综合报警强度 

    原值、变化率、离散度等衍生序列都可以用来发现异常,相应的可以得到报警强度序列,将这些报警强度序列通过某种方式整合起来,使其能够表征最终的报警激烈强度,整合后的报警强度序列称为综合报警强度,用W ..
关注乾学院公众号