计算&AI •
874 引用 •
936 回帖 •
446 关注
博客
关注
-
观察一些大型用户的 BI 系统,经常会发现数据仓库中有很多快照表。如某交易业务的 BI 系统,交易明细表很大,被按月存储成多个分段表。还有一些相对不太大的表,计算时要和交易明细表关联,比如客户 ..
-
在 JAVA 应用中经常要处理 txt\csv\json\xml\xls 这类公共格式的数据文件,直接用 JAVA 硬写会非常麻烦,通常要借助一些现成的开源包,但这些开源包也都有各自的不足。 ..
-
用户分析(或帐户分析),是指对用户、帐户明细数据进行统计分析计算。常见的有:用户行为分析、银行帐户统计、漏斗转化率、保险单分析等等。 这类场景涉及众多用户的历史数据,总数据量巨大(几千万甚至上 ..
-
依据用户、帐户明细数据做统计分析的场景比较常见。比如:用户行为分析、银行帐户统计、漏斗转化率、保险单分析等等,我们统称为帐户分析。这类场景的特征是:总数据量巨大但单个帐户数据量相对很小;数据涉 ..
-
数据湖概述 提到数据湖就要先说一下数据仓库,数据仓库是集成多业务系统数据、面向主题的、专门用于数据查询分析的数据组织形式。当业务系统数据量不断增大、业务系统数量不断增多以后,数据仓库的出现就会 ..
-
从 2015 年阿里提出“大中台”的数据中台战略,到 2019 年大厂及中台服务商“大兴”数据中台,再到 2021 年大厂又开始拆中台。数据中台从小甜甜变成牛夫人仅仅用了 2 年时间,为什么这 ..
-
可以在 Java 应用中嵌入的数据引擎看起来比较丰富,但其实并不容易选择。Redis 计算能力很差,只适合简单查询的场景。Spark 架构复杂沉重,部署维护很是麻烦。H2\HSQLDB\Der ..
-
DCM 是什么 现代应用无时无刻不在与数据打交道,数据计算无处不在,报表统计、数据分析、业务处理不一而足。当前数据处理的主要手段仍然是以关系数据库为代表的相关技术,虽然使用高级语言(如 Jav ..
-
现代应用开发中,通常只用SQL实现简单的数据存取动作,而主要的计算过程和业务逻辑直接在应用程序中实现,主要原因在于: 过于复杂的 SQL 很难调试、编写、阅读、修改。 SQL 有方言特征,大量 ..
-
很多数据仓库产品都采用了列式存储。如果数据表的总列数很多而计算涉及的列很少,采用列存就只读取需要的列即可,能够减少硬盘访问量,提高性能。特别是数据量非常大时,硬盘扫描和读取的时间占比很大,这时 ..
-
Excel是目前职场中应用最广泛的软件工具,各行各业都有大量“表哥表姐”们用它画表格,做计算。可以说,没有Excel,很多职场人员就无法正常工作。 不过,Excel也不是尽善尽美,它基本上没什 ..
-
连接(JOIN)用于把来自两个或多个表的记录结合起来。本文将探讨对于连接问题,SPL 的解决方案和基本原理。 表之间存在 ..
-
与以磁盘存储为主的普通数据库相比,内存数据库的数据访问速度可以高出几个数量级,能大幅提高运算性能,更适合高并发、低延时的业务场景。 不过,当前大部分内存数据库仍然采用 SQL 模型,而 SQL ..
-
对Excel进行解析\生成\查询\计算等处理是Java下较常见的任务,但Excel的文件格式很复杂,自行编码读写太困难,有了POI\EasyExcel\JExcel等类库就方便多了,其中POI ..
-
连接(JOIN)用于把来自两个或多个表的记录结合起来。本文将探讨对于连接问题,SPL 的解决方案和基本原理。 表之间存在 ..
-
WebService/Restful广泛应用于程序间通讯,如微服务、数据交换、公共或私有的数据服务等。之所以如此流行,主要是因为WebService/Restful采用了XML/Json这类多 ..
-
XML和Json不仅是结构化文本,而且擅长表示多层数据,可承载足够通用和足够丰富的信息,因此常被用于各种数据交换和信息传递事务,比如WebService/Restful,微服务等。但多层数据要 ..
-
多维分析(OLAP)通常要求极高的响应效率,当涉及的数据量很大时,每次都基于明细数据汇总效率就会很低,人们会考虑采用预汇总的方式加快查询速度,即事先将要查询的结果计算好,使用时直接读取预汇总结 ..
-
JOIN 一直是数据库性能优化的老大难问题,本来挺快的查询,一旦涉及了几个 JOIN,性能就会陡降。而且,参与 JOIN 的表越大越多,性能就越难提上来。 其实,让 JOIN 跑得快的关键是要 ..
-
转置功能常用报表等前端展现,将查询出来的数据转置成指定的显示格式。比如行转列,列转行,以及比较复杂的动态转置等等。动态行转列,是指转置时生成的字段不能事先指 ..
-
转置功能常用报表等前端展现,将查询出来的数据转置成指定的显示格式。比如行转列,列转行,以及比较复杂的动态转置等等。在《SPL:静态转置》一文中,我们为大家介 ..
-
T+0 问题 T+0 查询是指实时数据查询,数据查询统计时将涉及到最新产生的数据。在数据量不大时,T+0 很容易完成,直接基于生产数据库查询就可以了。但是,当数据量积累到一定程度时,在生产库中 ..
-
Elasticsearch 是一个分布式搜索服务器,它提供了Restful API更新数据、搜索数据。提交的数据、搜索结果都是JSON格式,计算引擎语言SPL有json()函数解析JSON字符 ..
-
SQL计算能力较强,在JAVA开发中广泛应用于结构化数据计算,但SQL深度绑定数据库,存在架构性缺陷,包括计算代码难以移植、业务逻辑不支持热切换、计算性能无法低成本扩展等。现代应用架构更推崇在 ..
-
使用集算器桌面版的Excel插件,可在Excel中执行SPL脚本并获得结果集后填充到Excel中。 第 1 章 安装与配置 1 、环境 要求64位的Windows和Excel,不能用32位的, ..