计算&AI •
796 引用 •
800 回帖 •
419 关注
博客
关注
-
Hadoop分布式文件系统(HDFS)提供了Java API读写其文件,集算器把实现读写HDFS文件的JAVA代码做了封装,形成更易用的SPL函数。通过这些函数,直接把HDFS文件数据加载到集 ..
-
筛选指定特征的曲线段二——筛选曲线段 算法背景 算法背景已经在《筛选指定特征的曲线段一——计算曲线特征》中介绍过了,这里不再赘述。 文章链接: 筛选指定特征的曲线段一——计算曲线特征 算法思路 ..
-
筛选指定特征的曲线段一——计算曲线特征 算法背景 很多仪表设备都能定时产生一些数据,称之为时间序列。将时间序列画在图上就是一条曲线,如下图: [图片] 图中横轴是时间(dd hh:mm),纵轴 ..
-
算法背景 很多仪表设备都能定时产生一些数据,称之为时间序列。 下图是一张时间序列的走势图,横轴是时间(dd hh:mm),纵轴是数值。 [图片] 数据的波动很大,看局部会有点杂乱无章的感觉,但 ..
-
集合运算是指集合间的和、交、并、差、异或、包含等基本运算。结构化数据经常是以集合形式出现的,为了方便地计算这类数据,SPL 提供了丰富的集合运算方法和函数。 ..
-
在手机APP中也需要进行结构化数据计算。安卓系统支持JAVA语言,本文介绍在安卓APP中如何集成SPL来进行结构化数据计算。 我们以较为常用的安卓开发工具Android Studio讲解,介绍 ..
-
除了常见的二维数据表,我们也会用到有着多层结构的数据文件。比如用来存储销售记录的 JSON 数据文件,可能按照时间、地点等维度分为多层数据结构,但是每层结构 ..
-
SPL 提供了丰富的针对文件系统的函数,能方便地处理目录以及文件。 1 目录 SPL 用 directory 函数列出文件目录或者文件,并以序列形式返回。 ..
-
无监督实时异常发现算法 算法背景 实际生产中会定时产生一些数据(比如:炼油设备的压力、液位、电气设备的电流、电压等),称为时间序列。生产活动发生异常时,很可能会有前兆反映在这些时间序列中,也就 ..
-
递归运算是指直接或者间接地调用自身的运算方法。比如我们熟悉的汉诺塔问题,就是典型的递归运算。在实际应用中递归查询问题也很常见,比如我们想知道某个部门有哪些上 ..
-
在分组时,我们经常需要把满足同一个条件的记录分配到同一组中。比如根据城市人口将城市分为大、中、小型城市,根据年收入将家庭分为富裕、中产、小康、贫困等等。根据 ..
-
算法背景 之前介绍了有边界的线性拟合算法,《有边界的线性拟合算法》,它的约束条件是所有系数都须在[0,1]范围内,但实际生产环境不仅仅是这个基本的限制。 已知条件 自变量矩阵X,在生产环境中称 ..
-
有时候我们会按照序号顺序将数据进行分组和排序,把序号相同的成员分到同一组。比如按 1 到 12 月的顺序统计上一年每个月的销售总额,按照周一到周日的顺序统计 ..
-
在分组时经常会要求结果集必须按基准集合的次序出现,这种对齐分组在日常统计中是很常见的。比如按北上广深的顺序,统计某公司在这些城市的总销售额;按指定的部门顺序 ..
-
有边界的线性拟合算法 已知自变量矩阵X和因变量矩阵Y,两者存在线性关系,但系数被限制在一个范围内,这个范围称为边界,试求出该边界范围内的最佳系数矩阵。 [图片] 其中X是k*m矩阵,k是样本数 ..
-
目标 集算器能直接针对数据文件写SQL查询,也能写SPL脚本支持复杂计算,为了容易给外部程序提供计算结果,提供了嵌入式JDBC驱动。本篇介绍Kettle中通用JDBC集成SPL的方法,及不同的 ..
-
在数据库之间进行数据转储,需要先将源数据库的数据导出到某文件,再把该文件中的数据导入到目标数据库中。还会有些较复杂的场景,需要对导出的文件进行一些处理后再导入到目标库。本文将探讨几种数据库转储 ..
-
有些时候,数据的次序在分组时是有意义的。我们有时会把具有相同字段值或者同时满足某些条件的相邻记录分到同一组。比如蝉联奥运会金牌榜第一名届数最长的国家是哪个, ..
-
【摘要】 从原理上分析 SQL 语句慢的原因,用代码示例给出提速办法。点击了解 ${article} 问题描述 高并发帐户查询的应用场景有很多,例如:手机银行查流水、网上营业厅查明细、手游帐户 ..
-
T+0 查询是指实时数据查询,数据统计时可以查询到最新产生的数据。对应的还有 T+1、T+7 等,对应表示只能查询 1 天或 7 天以前的数据,显然这种 T+N 查询的数据是非实时的。本文将要 ..
-
在数据库外的结构化数据计算方面,Stream 迈出了从无到有的一步;Kotlin 稍稍加强了这种能力,但编译性语言的特性使它无法走得更远;要想真正解决库外结构化数据计算的难题,还需要 SPL ..
-
一个集合X中可能存在过大或过小的异常值,希望计算一个范围,剔除集合X中过大或过小的异常值,这个范围的上下限就是阈值,较大值称为阈值上限,记为threshold_up,较小值称为阈值下限,记为t ..
-
对于按照一定次序排列的数据进行计算,经常会遇到跨行引用的情况,比如股票价格相比前一天的涨幅是多少,求某支股票的 20 日均价等等。 ..
-
把集合中具有相同属性的成员分配到同一个组,这就是分组运算。比如员工表根据部门分组,每组的员工都具有相同的部门;销售表可以根据销售年份分组,每组都是同一个年份 ..
-
【摘要】 从原理上分析 SQL 语句慢的原因,用代码示例给出提速办法。点击了解 ${article} 问题描述 我们把用来实现某种标记的“是否”型数据称为二值标签。在二值标签总数不太多,只有几 ..