计算&AI •
874 引用 •
936 回帖 •
446 关注
博客
关注
-
观察一些大型用户的 BI 系统,经常会发现数据仓库中有很多快照表。如某交易业务的 BI 系统,交易明细表很大,被按月存储成多个分段表。还有一些相对不太大的表,计算时要和交易明细表关联,比如客户 ..
-
用户分析(或帐户分析),是指对用户、帐户明细数据进行统计分析计算。常见的有:用户行为分析、银行帐户统计、漏斗转化率、保险单分析等等。 这类场景涉及众多用户的历史数据,总数据量巨大(几千万甚至上 ..
-
很多数据仓库产品都采用了列式存储。如果数据表的总列数很多而计算涉及的列很少,采用列存就只读取需要的列即可,能够减少硬盘访问量,提高性能。特别是数据量非常大时,硬盘扫描和读取的时间占比很大,这时 ..
-
物理上存储数据的表(简称物理表)往往会采用一些有利于提升性能、减小空间占用的存储机制。 但是,这些机制往往会降低数据可读性,且增加使用的复杂度。比如用整数代替枚举值,或者用整型字段的二进制位存 ..
-
与以磁盘存储为主的普通数据库相比,内存数据库的数据访问速度可以高出几个数量级,能大幅提高运算性能,更适合高并发、低延时的业务场景。 不过,当前大部分内存数据库仍然采用 SQL 模型,而 SQL ..
-
概要 通过调用java.sql.DatabaseMetaData 类中的各种方法,程序可以动态了解数据库,获取数据源连接到的数据库表结构等信息。 本文主要介绍如何在 JAVA 中使用 Data ..
-
基于 JVM 的开源数据处理语言主要有 Kotlin、Scala、SPL,下面对三者进行多方面的横向比较,从中找出开发效率最高的数据处理语言。本文的适用场景设定为项目开发中常见的数据处理和业务 ..
-
**【摘要】** 集算器 SPL 语言支持多样性数据源,通过 SPL 对 MongoDB 多个集合进行 join 关联, ..
-
我们工作中写 SQL 处理数据是家常便饭,不管是应用内数据处理还是临时查询分析都可以用 SQL 完成,相对其他技术(如 Java 等高级语言)也更简单。不过,SQL 的简单只限于简单需求,有些 ..
-
多维分析(OLAP)通常要求极高的响应效率,当涉及的数据量很大时,每次都基于明细数据汇总效率就会很低,人们会考虑采用预汇总的方式加快查询速度,即事先将要查询的结果计算好,使用时直接读取预汇总结 ..
-
目标任务 用户事件表T结构和部分数据示例如下: Time UserID EventTypeID ProductID Quantity 2022/6/1 10:20 1072755 3 1000 ..
-
目标任务 用户事件表T结构和部分数据示例如下: Time UserID EventTypeID ProductID Quantity 2022/6/1 10:20 1072755 3 1000 ..
-
目标任务 用户事件表T结构和部分数据示例如下: Time UserID EventTypeID EventType Product Quantity Unit Price … 2022/6/1 ..
-
目标任务 用户事件表T结构和部分数据示例如下: Time UserID EventTypeID EventType 2022/6/1 10:20 1072755 3 Search 2022/6 ..
-
目标任务 用户事件表T结构和部分数据示例如下: Time UserID EventTypeID EventType 2022/6/1 10:20 1072755 3 Search 2022/6 ..
-
目标任务 用户事件表T结构和部分数据示例如下: Time UserID EventType 2022/6/1 10:20 1072755 Search 2022/6/1 12:12 10780 ..
-
JOIN 一直是数据库性能优化的老大难问题,本来挺快的查询,一旦涉及了几个 JOIN,性能就会陡降。而且,参与 JOIN 的表越大越多,性能就越难提上来。 其实,让 JOIN 跑得快的关键是要 ..
-
数据湖概述 提到数据湖就要先说一下数据仓库,数据仓库是集成多业务系统数据、面向主题的、专门用于数据查询分析的数据组织形式。当业务系统数据量不断增大、业务系统数量不断增多以后,数据仓库的出现就会 ..
-
在 JAVA 应用中经常要处理 txt\csv\json\xml\xls 这类公共格式的数据文件,直接用 JAVA 硬写会非常麻烦,通常要借助一些现成的开源包,但这些开源包也都有各自的不足。 ..
-
依据用户、帐户明细数据做统计分析的场景比较常见。比如:用户行为分析、银行帐户统计、漏斗转化率、保险单分析等等,我们统称为帐户分析。这类场景的特征是:总数据量巨大但单个帐户数据量相对很小;数据涉 ..
-
连接(JOIN)用于把来自两个或多个表的记录结合起来。本文将探讨对于连接问题,SPL 的解决方案和基本原理。 表之间存在 ..
-
连接(JOIN)用于把来自两个或多个表的记录结合起来。本文将探讨对于连接问题,SPL 的解决方案和基本原理。 表之间存在 ..
-
DCM 是什么 现代应用无时无刻不在与数据打交道,数据计算无处不在,报表统计、数据分析、业务处理不一而足。当前数据处理的主要手段仍然是以关系数据库为代表的相关技术,虽然使用高级语言(如 Jav ..
-
现代应用开发中,通常只用SQL实现简单的数据存取动作,而主要的计算过程和业务逻辑直接在应用程序中实现,主要原因在于: 过于复杂的 SQL 很难调试、编写、阅读、修改。 SQL 有方言特征,大量 ..
-
可以在 Java 应用中嵌入的数据引擎看起来比较丰富,但其实并不容易选择。Redis 计算能力很差,只适合简单查询的场景。Spark 架构复杂沉重,部署维护很是麻烦。H2\HSQLDB\Der ..