计算&AI •
874 引用 •
936 回帖 •
446 关注
博客
关注
-
在报表、BI、跑批等数据分析业务中,性能不足时经常会想到内存数据库。所谓内存数据库是指全量数据永驻内存,计算时不需要从外存(硬盘)读取,避免磁盘 IO,可以有效提升数据处理性能。 内存数据库被 ..
-
本文档适用于已经掌握了云服务部署的知识,希望进一步学习 QVS 其他用法的用户。 使用 QVS 服务时,除了可以部署 QVS 服务器,还可使用内嵌 QVS 方式。相对于部署 QVS 服务器,内 ..
-
基于 SSC 上的应用程序可以分成两个部分,服务端由 QVA 和 QVM 构成,应用端由应用程序(以下简称 APP)和 QVS 组成。这两部分都有会涉及 SPL 脚本。服务端的 SPL 脚本在 ..
-
异构库的数据比对是指分别在不同类型数据库中的两张逻辑结构相同的数据表,进行数据比较,找出差异。 问题描述 数据对比的难点在于异构数据库间的数据类型和数据库本身在处理数据上存在的差异,这会导致同 ..
-
计算框架五花八门,有用于流式计算的Flink,用于边缘计算的eKuiper、用于大规模分布式计算的MapReduce,还有Spark、Samza、Storm、Omega、Kubernetes、 ..
-
使用SPL进行性能优化,在数据转存时将字符串等数据类型转换成整数,可以减少存储空间并提升计算性能,下面我们通过一个实际例子学习如何实现整数化。 问题描述 某时空碰撞问题的数据结构如下 字段名称 ..
-
时间键介绍 维表的数据相对比较固定,但仍然也会有变动。比如某客户的所在城市发生了变化:2020 年 5 月 15 日,city 从 New York 变更为 Chicago。 在订单表关联客户 ..
-
一、元数据权限( 控制表和字段) WEB系统经常是多用户的,要控制不同用户看到不同范围的元数据信息,有两种实现方式,一是给每种用户创建独立的元数据,部署成多个DQL服务,然后根据当前用户用JD ..
-
一、 部署DQL 服务 DQL服务器的启动程序是{安装目录}/esProc/bin/startDQLSERVER.bat(linux下是……startDQLSERVER.sh),运行它之前,先 ..
-
[链接][链接]》介绍了 SPL 对关联计算的分类,以及内存关联计算的编程方法。 《[链接]》介绍了外存关联计算的编程方法。 本篇继续介绍 SPL 的新关联计算方法,包括:用于外键连接的fjo ..
-
一、 准备数据 我们选用1G规模的TPCH数据来实践DQL查询,TPCH生成如下8个表的数据文件(*.tbl): [图片] 文件内容是文本格式,第一行是字段名,之后是数据行,行内数据以|分隔, ..
-
上一篇《[链接]》(简称“内存篇”)介绍了 SPL 对关联计算的分类,以及内存关联计算的编程方法。 当一个或者多个关联表数据量很大需要外存时,就不能使用内存连接算法了,SPL 专门提供了外存连 ..
-
ChatGPT带火了大模型,也带火了向量数据库。大模型训练成本高,学习新知识的周期太长,而向量数据库刚好可以充当大模型的“记忆”模块,找到与新问题相似的旧问题交给大模型处理,极大地扩展了大模型 ..
-
关联查询一直是 BI 的老大难,为了解决关联问题,采用宽表(CUBE)是一种常见的手段,即通过事先构建宽表消除多表关联来绕过关联查询的难题。 但这样做会导致 BI 的灵活性变差。 我们来考察 ..
-
宽表经常是 BI 系统的标配,很多 BI 项目在建设之初首先就会准备宽表。宽表是将有一定关联关系的多个表连接成一个表,结果集不符合范式要求,会存在大量数据冗余。同时宽表由于需要事先建立,在使用 ..
-
SPL 有集文件和组表两种文件格式,后缀分别是 btx 和 ctx。本文介绍 SPL 在这两种文件上的常规计算,类似于 SQL 可以表达的简单计算(不包含子查询)。 这两种文件相关的基本概念和 ..
-
跑批提速是SPL的一个主要优化场景,把跑批数据转储到SPL的高性能文件是优化过程中的重要环节。需要被转储的数据,通常包括两部分:历史冷数据和周期性增量数据(增删改)。下面介绍如何把历史与增量数 ..
-
数据计算上云可以帮助企业降本增效,常见的方式是选用云数据仓库。当前几乎所有云数仓都是从传统数据仓库演变而来的,数据仓库诞生之初并没有上云的考虑,云数仓会面临存算分离、弹性扩展、Serverle ..
-
本次实践的目标是从大量的高维(比如 512 维)二值向量中找到与目标向量最相似的成员。二值向量即各维度取值均为 0 或 1 的向量,“相似”指在高维空间中距离近,而距离有很多种,如欧式距离,马 ..
-
逻辑数据仓库技术允许用户在不搬迁原始数据的前提下将多种异构数据源进行逻辑上的融合,对外表现成数据仓库。逻辑数仓可以解决传统数仓数据搬迁导致的数据链路过长无法响应实时数据处理需求的问题,能够很好 ..
-
一、数据搬出 当TP数据库太撑时,采用SPL来承担AP任务。首先需要将TP数据库的数据搬出来。 关系型数据库通常使用jdbc连接数据库取数。以oracle为例,数据结构参考TPC-H。 将OR ..
-
SPL 中的关联计算和 SQL 有很大不同,SQL 把连接定义为笛卡尔积后再过滤。SPL 也提供了这种运算,但在绝大多数场景下都有更好的替代方法,因而并不推荐使用。 应用 SPL 编程实现关联 ..
-
流数据源通常是动态、无界的,看起来与静态、有限的批数据源区别较大,传统的数据库技术在架构上难以直接处理流数据源,只能让位于后来者。heron\samza\storm\spark\flink等计 ..
-
信息系统建设之初通常只有一个数据库,TP(交易)和 AP(分析)一把抓。随着业务和数据的不断增长,原来的数据库压力变得越来越大。为了不影响交易,业界常用的办法是把数据(通常是冷数据)迁出,把 ..
-
问题描述 灵活数据结构的意思是指数据表的每条记录的数据结构不相同。所有字段通常能分成为两部分,一部分是所有记录的共同字段,另一部分是各自不同的字段,其总数量可能多达数百种,但每条记录只占少数几 ..