计算&AI •
874 引用 •
936 回帖 •
446 关注
博客
关注
-
集合运算是指集合间的和、交、并、差、异或、包含等基本运算。结构化数据经常是以集合形式出现的,为了方便地计算这类数据,SPL 提供了丰富的集合运算方法和函数。 ..
-
一、 测试任务 电商业务中漏斗分析是常见的统计需求。用户使用智能设备购物时,系统会建立连接形成会话 session。每个会话又包含很多个操作事件 event,比如:访问网站,浏览产品页,下单购 ..
-
在SPL中,从数据源将数据读成游标以后,就可以进行所有SQL式的运算,如过滤、汇总、跨列计算、排序、分组汇总、Top-N、分组Top-N、去重、分组去重、关联查询等。游标上的运算分为延迟计算和 ..
-
一、 SQL 及分析 查询SQL语句如下: select * from ( select c_name, c_custkey, o_orderkey, o_orderdate, o_total ..
-
基于 JVM 的开源数据处理语言主要有 Kotlin、Scala、SPL,下面对三者进行多方面的横向比较,从中找出开发效率最高的数据处理语言。本文的适用场景设定为项目开发中常见的数据处理和业务 ..
-
问题描述 发电设备中会放置传感器(DCS)来采集数据以监控设备运转的状况,某集团设计的电力监控统计系统,需要按固定频率实时采集多个传感器(以下称为测点)上测量的数据后保存,然后提供按任意时间区 ..
-
SPL 提供了丰富的针对文件系统的函数,能方便地处理目录以及文件。 1 目录 SPL 用 directory 函数列出文件目录或者文件,并以序列形式返回。 ..
-
遍历复用的原理 对外存数据表做遍历计算时,大部分时间都用来从硬盘上读取数据了。所以我们会希望一次读取能做尽量多的事情,也就是尽量做到能复用遍历过程中读出来的数据。 比如我们对订单 ..
-
可以用来做人工智能建模预测的工具非常多,比如Python, R, SAS,SPSS等,其中Python由于简单易学、丰富的数据科学库、开源免费等特点备受欢迎。但是对于不太熟悉数据建模算法的程序 ..
-
在数据分析时,经常遇到内存无法放下的数据,需要借助硬盘完成数据分析,本文对比 Python 和 SPL 对这种数量级数据的运算分析能力,至于更大级别如 ..
-
在 Java 下实现以数据库为核心的业务逻辑,需要具备三项要素:数据库表的对象化、结构化数据计算能力、流程处理能力。Hibernate 是老牌技术,很早就具备了三项要素,已经在众多项目中实现了 ..
-
来源: https://forums.opentext.com/forums/discussion/50068/set-report-parameters-with-csv-files-as- ..
-
针对集合每个成员计算,遍历后得出一个新结果的函数,我们通称为循环函数。Python原生的 list 循环函数太少了,稍微复杂一些的循环就得用 for 来写了,所以这里就不介绍了,我们主要对比 ..
-
问题描述 灵活数据结构的意思是指数据表的每条记录的数据结构不相同。所有字段通常能分成为两部分,一部分是所有记录的共同字段,另一部分是各自不同的字段,其总数量可能多达数百种,但每条记录只占少数几 ..
-
Redis是K-V数据库,value可以是String、Hashmap、List、Set、Sortedset。针对每种value提供了一系列不同的操作命令,加上一些管理命令,总计三百多个。这些 ..
-
一、 SQL 及分析 查询SQL语句如下: select l_returnflag, l_linestatus, sum(l_quantity) as sum_qty, sum(l_exten ..
-
Json 比普通的二维数据计算起来更困难,这种情况下要用计算类库完成,本文将比较四类 Json 的计算库,包括 JsonPath、SQLite、Scala、集算器 SPL,重点考察这些工具在语 ..
-
一、问题提出 时间序列数据主要由电力行业、化工行业、气象行业、地理信息等各类型实时监测、检查与分析设备所采集、产生的数据,这些工业数据的典型特点是:产生频率快(每一个监测点一秒钟内可产生多条数 ..
-
JSON 的多层结构比二维结构格式复杂,计算起来难度很大,早期的类库只能解析 JSON,没有计算能力;JsonPath 虽然提供了原始的计算语言,但计算能力较弱;SPL 是专业的计算语言,支持 ..
-
实时追加例程—用内存避免小分表 背景与方法 参考下面文章 [链接] 该文章中采用多层分表的方式存储实时数据,对于数据追加频繁的场景,为了保证新数据能快速及时写出,采用了较短时间区间的小分表,这 ..
-
使用存储过程跑批一直是常态,存储过程将 SQL 过程化可以满足相对复杂的跑批场景,同时在数据库内运行(数据不出库)性能相对较好。不过,存储过程的缺点也很多。编辑调试困难,缺乏有效的开发环境;移 ..
-
筛选指定特征的曲线段二——筛选曲线段 算法背景 算法背景已经在《筛选指定特征的曲线段一——计算曲线特征》中介绍过了,这里不再赘述。 文章链接: 筛选指定特征的曲线段一——计算曲线特征 算法思路 ..
-
数据湖概述 提到数据湖就要先说一下数据仓库,数据仓库是集成多业务系统数据、面向主题的、专门用于数据查询分析的数据组织形式。当业务系统数据量不断增大、业务系统数量不断增多以后,数据仓库的出现就会 ..
-
在大数据表关联场景中,如果各个表按照主键或部分主键关联,我们可以采用 SPL 附表机制来做性能优化。 附表机制是将上述要关联的表绑在一起存储。以客户表 customer 和联系方式表 cont ..
-
【摘要】 递归运算是指直接或者间接地调用自身的运算方法。比如我们熟悉的汉诺塔问题,就是典型的递归运算。SQL 和 SPL 是大家比较熟悉的程序语 ..