-
作为程序语言,SPL 有一些自有的特点,不了解这些并不影响上手学习,但在架构设计或代码编写上都难以充分发挥其功能。这里试图为初步者建立一套 SPL 的基本概念骨架,其它更多的内容再根据实际需求 ..
-
测试环境 系统:CentOS7 虚拟机:VMWare 15.5.1build-15018445 内存:32G CPU:4 数据:1G规模的TPCH 数据读取 数据源分为两种,分别是文本文件和数 ..
-
What?写在格子里的程序语言?! 是的!你没看错,写在格子里的程序语言 SPL(Structured Process Language),专门用于结构化数据处理。 我们知道,几乎所有编程语言 ..
-
Lambda 语法的主要目标是快捷方便地定义和使用临时函数,降低代码量,提高开发效率。SPL 专注于结构化数据计算领域,经常面对复杂的计算逻辑和冗长的计算代码,为了更适应具体的应用环境,SPL ..
-
什么是汇总层 BI 多维分析,是指业务人员针对已经建好的数据立方体,在页面上拖拽数据,进行分析 [图片] 常见的分析,一般都是在某些维度上对测度进行合计、计数、平均、最大最小等聚合运算,再用升 ..
-
序号是从 1(或 0)开始依次增长的自然数,可用于数组和序列的下标、数据集和序表的行号,以及自然数字段。 SQL 对序号的支持不足,作为基础数据类型的记录集合(表)是无序的,没有天然行号,SQ ..
-
量化交易是通过编程建模等方式,利用概率论、统计学等知识从庞大的历史数据中总结规律并建模量化模型,然后凭借计算机强大的计算能力来高效、快速地进行交易决策。编程语言可选择的语言很多,下图是来自于T ..
-
报表通常都是通过 SQL 来从数据库中取数和计算再呈现的,有些情况下,报表可能始终对接一个数据库,但也有不少情况时,报表需要在不同情况下对接不同的数据库,比如: 行业开发商做的通用行业报表,要 ..
-
封闭的传统数据仓库 我们知道数据仓库是晚于数据库出现的,当 TP 数据库无法满足日益增长的数据分析需要时,人们便通过架设单独的数据库把 AP 业务独立出来就形成了数据仓库(逻辑概念)。后续出现 ..
-
现代大数据应用的结构大概是这样的: [图片] 作为数据中心(中间部分)处于各种应用与数据源之间,对下对接多种数据源处理分析所有数据,对上要为各个应用提供数据服务,其重要性不言而喻。数据中心由于 ..
-
本文旨在介绍如何将 git 上的开源项目 esProc 导入到 eclipse 中,为用户进行软件开发提供方便。 eclipse 通过 Git 获取 esProc 步骤 打开 eclipse, ..
-
随着数据量不断增长和业务复杂度逐渐攀升,数据处理效率面临巨大挑战。最典型的表现是面向分析型场景的数据仓库性能问题越来越突出,压力大、性能低,查询时间长甚至查不出来,跑批跑不完造成生产事故等问题 ..
-
概述 SPL主要是为了解决SQL的困难(复杂任务很难写且跑得慢、跨源计算难、依赖存储过程等)而设计的,其应用场景也与SQL类似,一般会配合应用程序工作,且能支持大数据,包括高性能运算和并行运算 ..
-
取一定数量的样本,将真实值和预测值的结果画在一张图上即为结果对照图。 结果对照图可以直观的展示预测结果和真实值之间的差距和走势。 A 1 =T('houseprice_result.xls') ..
-
残差residual=真实值-预测值 计算houseprice_result.xls中的残差并画图 A 1 =T('houseprice_result.xls') 2 =A1.derive(S ..
-
在建模数据中经常遇到这样一种变量,其本身是受因变量影响的(即它不但不是因变量的影响因素,反而因变量是它的影响因素),若该变量被作为自变量添加入模型,则会造成其他自变量不能进入模型。同时,由于这 ..
-
使用统计假设检验的方法也可以判断自变量对因变量的影响是否显著,在SPL中提供了几种统计检验p值计算的函数,可以根据数据情况选择合适的检验形式,函数用法见p 值 - 乾学院 (raqsoft.c ..
-
相关系数是度量两个变量之间相关程度的统计量,常用的有Pearson相关系数和Spearman相关系数,两者值均在[-1,1]之间分布,当其值为0时两个变量不想关,当其值为1或-1时,表示两个变 ..
-
有边界的线性拟合方法保证拟合时收率被限制在边界内,误差限制法保证收率不偏离基础收率太远,现在只有约束2(所有出料对某一种进料的收率和等于1)还没有满足,本节将介绍一种线性变换的方法来满足此约束 ..
-
为了满足约束3(收率不能偏离基础收率太远),将收率与基础收率的差称为偏差收率,记为WE。 WE=W-B 收率W范围是[0,1],基础收率B是固定的,偏差收率WE的理论最大范围是[-1,1],但 ..
-
在积累了一些进料和出料的样本数据后,我们希望计算出收率矩阵。 如果没有任何约束条件,用最小二乘法就可以得到收率W。 W=linefit(X,Y) 其中linefit(…)是最小二乘线性拟合函数 ..
-
工业生产活动的目标是利用原料生产产品,从而产生利润。原料经过一系列加工过程,包括物理反应和化学反应,最终形成产品,生产的理想状态是原料到产品的转换率是确定的,工厂想生产多少产品就知道需要准备多 ..
-
对于时间序列来说,比较两个时间序列的相似性是一个很普遍的任务。通俗来说,两个时间序列的数据越接近,它们的图像“长得越像”,两个时间序列就越相似,而形容它们“长得像”的程度就是相似度,用sm表示 ..
-
一、问题提出 时间序列数据主要由电力行业、化工行业、气象行业、地理信息等各类型实时监测、检查与分析设备所采集、产生的数据,这些工业数据的典型特点是:产生频率快(每一个监测点一秒钟内可产生多条数 ..
-
时间序列中,如果某一时段内的数据变化不大,我们称之为稳定段;某一时段内数据快速上升或者下降,我们称之为不稳定段;不稳定段通常是前一段稳定段的结束,也是后一段稳定段的开始,发现不稳定段可以确定每 ..