计算&AI •
797 引用 •
800 回帖 •
419 关注
博客
关注
-
【摘要】 用实例、分步骤,详细讲解多维分析(OLAP)的实现。点击了解 ${article} 实践目标 本期目标是在上期基础上,将客户宽表全部数据与分支机构等多个维表关联,并通过维表字段进行切 ..
-
ETL 是将数据从来源端经过清洗(extract)、转换(transform)、加载(load)至目的端的过程。正常的 ETL 过程应当是 E、T、L 这三个步骤逐步进行,也就是先清洗转换之后 ..
-
文字处理在任何一门程序语言中都是必不可少的,SPL提供了十分丰富的文字处理函数,分为字符处理、简单串处理、与序列相关、复杂分析等几大类,囊括字符串子串、判断、转换、字符编码、数据类型解析、查找 ..
-
针对存储过程优缺点的讨论(争论)由来已久,这里我们不妨来详细盘点一下存储过程的利与弊。 先说优点 毕竟还是有不少人在用,总要有点好处。 SQL 过程化 很少人提及存储过程的这个优点,似乎是认为 ..
-
JSON 的多层结构比二维结构格式复杂,计算起来难度很大,早期的类库只能解析 JSON,没有计算能力;JsonPath 虽然提供了原始的计算语言,但计算能力较弱;SPL 是专业的计算语言,支持 ..
-
【摘要】 转置功能常用报表等前端展现,将查询出来的数据转置成指定的显示格式。比如行转列,列转行,以及比较复杂的动态转置等等。SQL 和 SPL ..
-
基于 JVM 的开源数据处理语言主要有 Kotlin、Scala、SPL,下面对三者进行多方面的横向比较,从中找出开发效率最高的数据处理语言。本文的适用场景设定为项目开发中常见的数据处理和业务 ..
-
连接(JOIN)用于把来自两个或多个表的记录结合起来。本文将探讨对于连接问题,SPL 的解决方案和基本原理。 表之间存在的数据相互依赖关系,就叫做表间关联关系。表间关联关系可以分为以下几种:一 ..
-
从 2015 年阿里提出“大中台”的数据中台战略,到 2019 年大厂及中台服务商“大兴”数据中台,再到 2021 年大厂又开始拆中台。数据中台从小甜甜变成牛夫人仅仅用了 2 年时间,为什么这 ..
-
遍历复用的原理 对外存数据表做遍历计算时,大部分时间都用来从硬盘上读取数据了。所以我们会希望一次读取能做尽量多的事情,也就是尽量做到能复用遍历过程中读出来的数据。 比如我们对订单 ..
-
【摘要】 递归运算是指直接或者间接地调用自身的运算方法。比如我们熟悉的汉诺塔问题,就是典型的递归运算。SQL 和 SPL 是大家比较熟悉的程序语 ..
-
【摘要】 从原理上分析 SQL 语句慢的原因,用代码示例给出提速办法。点击了解 ${article} 问题描述 主键连接是非常常见的情况,如订单和订单明细。但数据库并不区分关联的字段是什么,一 ..
-
Q1 运行环境 esProc 目前是纯 Java 软件,只要有 JDK1.8 及以上版本的 JVM 环境的任何操作系统都可以运行,包括常见的 VM 和 Container。 esProc 正常 ..
-
筛选指定特征的曲线段二——筛选曲线段 算法背景 算法背景已经在《筛选指定特征的曲线段一——计算曲线特征》中介绍过了,这里不再赘述。 文章链接: 筛选指定特征的曲线段一——计算曲线特征 算法思路 ..
-
在SPL中,从数据源将数据读成序表以后,就可以进行所有SQL式的运算,如过滤、汇总、跨列计算、排序、分组汇总、分组过滤、Top-N、分组Top-N、去重、分组去重、关联查询等。本文以文件数据源 ..
-
报表的数据来源非常丰富,理论上任何数据源都可能同时作为报表的数据源来源,RDB、NoSQL、CSV、Excel、Json、Hadoop 不一而足,这就产生了报表开发中的多源问题。如何解决多源带 ..
-
Json 比普通的二维数据计算起来更困难,这种情况下要用计算类库完成,本文将比较四类 Json 的计算库,包括 JsonPath、SQLite、Scala、集算器 SPL,重点考察这些工具在语 ..
-
我们知道,早期数据库并不区分 TP 和 AP,所有任务都在一个数据库中完成。做 TP 业务时,要保证数据的一致性,而一致性要限定在一个范围内才有意义,这也就有了“库”的概念。数据入库是有门槛的 ..
-
【摘要】 前文提到的分组运算,都是以相同的字段值或表达式结果为基准来分组。除此以外还有一些常见但特殊的分组运算。比如将客户按照北上广深的顺序分组 ..
-
Elasticsearch 是一个分布式搜索服务器,它提供了Restful API更新数据、搜索数据。提交的数据、搜索结果都是JSON格式,计算引擎语言SPL有json()函数解析JSON字符 ..
-
现代应用开发中,通常只用SQL实现简单的数据存取动作,而主要的计算过程和业务逻辑直接在应用程序中实现,主要原因在于: 过于复杂的 SQL 很难调试、编写、阅读、修改。 SQL 有方言特征,大量 ..
-
针对集合每个成员计算,遍历后得出一个新结果的函数,我们通称为循环函数。Python原生的 list 循环函数太少了,稍微复杂一些的循环就得用 for 来写了,所以这里就不介绍了,我们主要对比 ..
-
有些时候,数据的次序在分组时是有意义的。我们有时会把具有相同字段值或者同时满足某些条件的相邻记录分到同一组。比如蝉联奥运会金牌榜第一名届数最长的国家是哪个, ..
-
【摘要】 从原理上分析 SQL 语句慢的原因,用代码示例给出提速办法。点击了解 ${article} 问题描述 数据表 T 的字段 x 按照集合 X={X1=Xn。分段之后,按照段号分组汇总。 ..
-
HTAP(Hybrid Transaction and Analytical Process,混合事务和分析处理)自 2014 年明确提出以后成为了很多数据库厂商努力的方向。其实 HATP 并 ..