-
InfluxDB是时序数据库,数据存储在它的bucket中,多个bucket又组成一个organization。每条数据由measurement、多个维度、多个字段值、时间戳构成: airSe ..
-
部分预汇总 多维分析后台的运算本质是分组汇总,可以直接对数据执行这个计算。但是,当数据量非常大的时候,很难做到即时响应。 预汇总是个容易想到的办法,即事先把各种汇总结果计算好,保存为中间结果( ..
-
业务逻辑由数据库读写、结构化数据计算、流程处理组成。SQL的设计初衷就是数据库读写和结构化数据计算,解决这两部分相对轻松,但因为缺乏流程处理语句(循环、判断),SQL难以独自实现完整的业务逻辑 ..
-
中间表是数据库中专门存放中间计算结果的数据表,往往是为了前端查询统计更快或更方便而在数据库中建立的汇总表,由于是由原始数据加工而成的中间结果,因此被称为中间表。在某些大型机构中,多年积累出来中 ..
-
自助报表需求已经是越来越普遍,各行业的应用软件中,不管是主动还是被动,都在思考并在努力实现自助报表功能 这样做对于用户来说,可以自由灵活的去分析了解数据,不再拘泥于固定格式的数据报表,方便灵活 ..
-
ETL 是将数据从来源端经过清洗(extract)、转换(transform)、加载(load)至目的端的过程。正常的 ETL 过程应当是 E、T、L 这三个步骤逐步进行,也就是先清洗转换之后 ..
-
大数据表关联时,有时会先对关联表做条件过滤。对于关联字段是主键或者部分主键的情况,SPL 在有序归并关联算法(参考这里)的基础上提供关联定位算法,来提升过滤后关联的计算性能。 先来看关联表按照 ..
-
JAVA开发中经常会遇到不方便使用数据库,但又要进行结构化数据计算的场景。JAVA早期没有提供相关类库,即使排序、分组这种基本计算也要硬写代码,开发效率很低。后来JAVA8推出了Stream库 ..
-
在大数据表关联场景中,如果各个表按照主键或部分主键关联,我们可以采用 SPL 附表机制来做性能优化。 附表机制是将上述要关联的表绑在一起存储。以客户表 customer 和联系方式表 cont ..
-
[链接]文本为什么更慢? 文本文件慢的原因,主要在于会多出很多数据类型解析的动作。 举个例子,设想一下把文本“12345' 转成内存二进制整数 12345 的过程: 1. 先设结果的初始值为 ..
-
大表关联常常会出现性能问题。对于关联字段是主键或者部分主键的情况,SPL 提供有序归并算法来计算。 有序关联算法,要事先把这些关联表的数据按其主键排序。排序的成本虽然较高,但是一次性的。一旦完 ..
-
大数据计算场景下,很多比较复杂的算法都会产生落地的中间结果,出现对外存的读写,从而影响性能。 例如,帐户交易表 trades 包含帐号 id,交易日期 dt 和交易金额 amou ..
-
Kafka是一种分布式的信息流平台,它的客户端分为生产者、消费者两种,生产者提交数据,消费者读取数据。Kafka中传递的事件消息没有固定格式,消费者、生产者自由约定一些个性化格式,比如是JSO ..
-
遍历复用的原理 对外存数据表做遍历计算时,大部分时间都用来从硬盘上读取数据了。所以我们会希望一次读取能做尽量多的事情,也就是尽量做到能复用遍历过程中读出来的数据。 比如我们对订单 ..
-
报表工具已经有 20 多年的历史了,也被用户选了 20 多年,这么多年,貌似选型这件事情应该已经是非常成熟的一件事情了,对于业内相关人员应该是人尽皆知没什么好讨论的事情了,但实则不然,报表工具 ..
-
结构化数据查询中,常常会遇到全文检索的需求。比如,在国家表中,查找 Ch 开头的国家;或者在“帖子”表中,查找“内容”字段包含 water 的记录。 面向搜索的全文检索虽然能解决这个问题,但不 ..
-
Cassandra是一种分布式的NoSQL数据库。JAVA中可以使用DataStax执行Cassandra的CQL,CQL语言能简单地维护、读写数据,但不支持关联、分组聚合等操作,计算能力比关 ..
-
外存索引是在原表之外建立的,被查找字段值和原表记录物理位置的关联表。在查找时,用指定值从这个关联表中迅速获得原表物理位置,再去读取原表记录。 这样,索引中会存储很多被查找字段值。要在其中找到指 ..
-
报表的性能很重要,是一个总被谈及的问题,跑的慢的报表用户体验恶劣,无法忍受。解决这些慢的性能问题,也成了项目方和工程师头疼的事情。一出状况,就得安排技术好的,能力强的工程师去救火,本来利润就薄 ..
-
现代信息系统多数据源的情况很常见,尤其分析型应用经常要跨多数据源混合计算实现数据统计分析。由于数据源种类众多,有 RDB,也有 NoSQL,还有 CSV、Excel 等文件,JSON、XML ..
-
工具,本身就是为了解决各种重复性工作效率低下的问题而诞生的产物,报表工具也是工具,所以它的诞生,它的使命,也是为了提效!是为了提升数据信息化项目中报表的开发效率而诞生的 但不同的工具,开发方式 ..
-
在数据分析时,经常遇到内存无法放下的数据,需要借助硬盘完成数据分析,本文对比 Python 和 SPL 对这种数量级数据的运算分析能力,至于更大级别如 ..
-
业务逻辑经常包含较复杂的流程和计算,同时涉及数据库的读写。由于授权麻烦、影响数据库安全、无法迁移、技术要求高、编写困难等原因,很多场景不适合用存储过程实现业务逻辑。因为不擅长复杂的流程处理,S ..
-
SPL 不仅可以做数据准备和计算,还可以调用润乾报表的外部库来生成有格式要求的报表,比如导出 Excel、pdf、Word、Html 等格式,并且 SPL 脚本可以集成到 JAVA 程序中调用 ..
-
[链接]商业模式 [链接] [链接]产品介绍 极简版: [链接] [链接] [链接] [链接] [链接] [链接]高效开发 [链接]体系结构方案 [链接] [链接] [链接] [链接] [链接 ..