计算&AI •
796 引用 •
800 回帖 •
419 关注
博客
关注
-
概述 组表是SPL重要的文件存储格式。为保证高性能,组表常常要求数据有序存储,但数据的产生次序通常和组表要求的次序不同,在维护组表数据时需要调整数据的次序。另外,组表在写入时不能同时读取,而有 ..
-
问题描述 在 A 电商公司,漏斗转化率分析是常用且重要的统计需求。 用户使用智能设备购物时,系统会建立连接形成会话 session。每个会话又包含很多个操作事件 event,比如:访问网站,浏 ..
-
问题描述 漏斗分析定义 电商业务中漏斗分析是常见的统计需求。用户使用智能设备购物时,系统会建立连接形成会话 session。每个会话又包含很多个操作事件 event,比如:访问(visit)类 ..
-
问题描述 数据结构与规模 客户 - 维度表 cust_dim 字段名称 字段类型 字段注释 示例数据 id Number 客户号 18765 d1 Number 维度 1 12 … … … … ..
-
问题描述 数据结构与规模 存款明细表 deposit 字段名称 字段类型 字段注释 示例数据 dt Date 日期 2023-11-23 curr String 币种 1 人民币,0 其他 c ..
-
问题描述 系统结构 前端应用是 BI 系统,主要实现条件过滤查询,后台是某 MPP 数据库。前端根据用户在页面上的选择、操作来生成针对宽表 ordes(订单表)的 SQL 提交给后台,并展现后 ..
-
问题描述 数据结构与规模 帐户明细表 T 数据结构: 字段名称 字段类型 字段注释 示例数据 Id String 帐号 28 位数字 Tdate Date 日期 2023-10-22 Tamt ..
-
实时追加例程—用内存避免小分表 背景与方法 参考下面文章 [链接] 该文章中采用多层分表的方式存储实时数据,对于数据追加频繁的场景,为了保证新数据能快速及时写出,采用了较短时间区间的小分表,这 ..
-
内存列式计算 什么是列式存储 内存中的序表,一般是采用行式存储。例如员工表包含字段 id、name、birthday,在内存中大致是这样存储的: [图片] 每行(也就是每条记录)存成一个 Ob ..
-
时间键介绍 维表的数据相对比较固定,但仍然也会有变动。比如某客户的所在城市发生了变化:2020 年 5 月 15 日,city 从 New York 变更为 Chicago。 在订单表关联客户 ..
-
[链接][链接]》介绍了 SPL 对关联计算的分类,以及内存关联计算的编程方法。 《[链接]》介绍了外存关联计算的编程方法。 本篇继续介绍 SPL 的新关联计算方法,包括:用于外键连接的fjo ..
-
上一篇《[链接]》(简称“内存篇”)介绍了 SPL 对关联计算的分类,以及内存关联计算的编程方法。 当一个或者多个关联表数据量很大需要外存时,就不能使用内存连接算法了,SPL 专门提供了外存连 ..
-
SPL 有集文件和组表两种文件格式,后缀分别是 btx 和 ctx。本文介绍 SPL 在这两种文件上的常规计算,类似于 SQL 可以表达的简单计算(不包含子查询)。 这两种文件相关的基本概念和 ..
-
SPL 中的关联计算和 SQL 有很大不同,SQL 把连接定义为笛卡尔积后再过滤。SPL 也提供了这种运算,但在绝大多数场景下都有更好的替代方法,因而并不推荐使用。 应用 SPL 编程实现关联 ..
-
背景与方法 本例程适应场景:数据维护的实时性不高,可以在指定时刻定期执行,一般数小时或天为单位;总数据量很大,需要拆成多个分表存储;支持追加和更新两种模式。每次数据维护量可能较大,可以使用游标 ..
-
背景与方法 本例程适应场景:数据维护的实时性不高,可以在特定时刻定期执行,一般以数小时或天为单位;总数据量不大,可以单组表存储;支持追加和更新两种模式。每次数据维护量可能较大,可以使用游标传入 ..
-
新出现的数据库产品通常会标榜自己的运算速度“最快”、“更快”,但在实际应用中却常常达不到让人满意的性能。因此,事先做好运算性能测试,是数据库选型成功的关键。很多用户对性能测试不熟悉,容易出现一 ..
-
1 应用场景 和【实时追加例程】的应用场景类似,所不同的是需要对数据进行更新。本例程适用于具有如下特征的数据表的更新: 对数据更新的实时性要求很高、数据更新周期很短、任意时刻均有可能更新;单次 ..
-
一、 测试任务 电商业务中漏斗分析是常见的统计需求。用户使用智能设备购物时,系统会建立连接形成会话 session。每个会话又包含很多个操作事件 event,比如:访问网站,浏览产品页,下单购 ..
-
组表是SPL重要的文件存储格式。组表文件不支持在读取时同时写入,为保证高性能,组表还常常要求数据有序存储。数据不是一成不变的,还需要持续追加或更新,新产生数据的次序通常和组表要求的次序也不同。 ..
-
1. 应用场景 本例程适用于具有如下特征的数据表的追加: 对数据追加的实时性要求很高、数据追加周期很短、任意时刻均有可能追加;数据只有追加无删除修改的需求;单次追加的数据量比较小,可以全内存存 ..
-
一、 测试任务 基于位置计算两个实体之间的距离,进而决定是否建立关联关系。这是典型的非等值关联运算,此时不能再使用 HASH 方法来优化。 任务原型来自国家天文台的星体聚类运算,经过简化后描述 ..
-
应用中的数据业务通常涉及持久化数据的访问、数据计算和流程处理。数据库中的持久化数据可以用 SQL 计算,存储过程的 loop/if 语句可以进行流程处理,JDBC(含 ODBC)可以让 SQL ..
-
【本篇可结合 https://c.raqsoft.com.cn/article/1699245988919 阅读】 目前网上有很多涉及 esProc SPL 的帖子,有方案介绍、测试报告、案例 ..
-
有序存储是指将数据按照某些字段排序后再存储。在此基础上,我们可以实现某些高性能算法,利用数据有序的特征来降低计算复杂度,从而大幅提高计算性能。 免索引直接找 在查找计算中,我们常常要按某字段的 ..