计算&AI •
874 引用 •
936 回帖 •
446 关注
博客
关注
-
逻辑数据仓库技术允许用户在不搬迁原始数据的前提下将多种异构数据源进行逻辑上的融合,对外表现成数据仓库。逻辑数仓可以解决传统数仓数据搬迁导致的数据链路过长无法响应实时数据处理需求的问题,能够很好 ..
-
一、数据搬出 当TP数据库太撑时,采用SPL来承担AP任务。首先需要将TP数据库的数据搬出来。 关系型数据库通常使用jdbc连接数据库取数。以oracle为例,数据结构参考TPC-H。 将OR ..
-
SPL 中的关联计算和 SQL 有很大不同,SQL 把连接定义为笛卡尔积后再过滤。SPL 也提供了这种运算,但在绝大多数场景下都有更好的替代方法,因而并不推荐使用。 应用 SPL 编程实现关联 ..
-
流数据源通常是动态、无界的,看起来与静态、有限的批数据源区别较大,传统的数据库技术在架构上难以直接处理流数据源,只能让位于后来者。heron\samza\storm\spark\flink等计 ..
-
信息系统建设之初通常只有一个数据库,TP(交易)和 AP(分析)一把抓。随着业务和数据的不断增长,原来的数据库压力变得越来越大。为了不影响交易,业界常用的办法是把数据(通常是冷数据)迁出,把 ..
-
问题描述 灵活数据结构的意思是指数据表的每条记录的数据结构不相同。所有字段通常能分成为两部分,一部分是所有记录的共同字段,另一部分是各自不同的字段,其总数量可能多达数百种,但每条记录只占少数几 ..
-
所有时间单位均为秒。 环境配置 CPU 2 颗 KunPeng 920-4826,共 96 核 CPU 2 颗 LongXin 3C5000,共 32 核 CPU 2 颗 Phytium S2 ..
-
背景与方法 本例程适应场景:数据维护的实时性不高,可以在指定时刻定期执行,一般数小时或天为单位;总数据量很大,需要拆成多个分表存储;支持追加和更新两种模式。每次数据维护量可能较大,可以使用游标 ..
-
背景与方法 本例程适应场景:数据维护的实时性不高,可以在特定时刻定期执行,一般以数小时或天为单位;总数据量不大,可以单组表存储;支持追加和更新两种模式。每次数据维护量可能较大,可以使用游标传入 ..
-
概述 集算器云服务是一款既可部署在云平台虚拟机,也可部署在本地的提供 SPL 计算的应用。管理多个 SPL 服务器,执行远程存储脚本文件时,会自动为 SPL 服务器分配任务实现云计算。 云服务 ..
-
新出现的数据库产品通常会标榜自己的运算速度“最快”、“更快”,但在实际应用中却常常达不到让人满意的性能。因此,事先做好运算性能测试,是数据库选型成功的关键。很多用户对性能测试不熟悉,容易出现一 ..
-
为了获得更好的数据库计算性能,经常会采用 MPP 数据库,如 Greenplum、Vertica、IQ、TD Aster Data 等。MPP 有较好的性能,但应用成本很高。MPP 的硬件资源 ..
-
客户信息标签化,即客户画像,是指通过收集客户的社会属性、消费习惯、偏好特征等各个维度的数据,进而对客户或者产品特征属性进行刻画,并对这些特征进行分析、统计,挖掘潜在价值信息,从而抽象出客户的信 ..
-
DT时代,数据作为一种资产越来越受到重视,各行各业都积累了不少的历史数据。然而沉淀的数据只是资源,只有用起来,数据的价值才能释放。如何盘活数据资产,让历史数据中的价值充分发挥显得尤为重要。 数 ..
-
SPL提供了两种方式连接数据库:JDBC/ODBC直连方式;JNDI连接池方式。 在Mysql中有一个MyCompany库,库里有employees表,下面尝试各种方式连接它。 [图片] 直连 ..
-
1、 测试任务 本任务原型为某大型电器企业ERP系统中的产品库龄统计。 原始数据是如下的一对主子表: 库存表(store): 字段名 数据类型 字段含义 store 字符串 仓库ID prod ..
-
1 应用场景 和【实时追加例程】的应用场景类似,所不同的是需要对数据进行更新。本例程适用于具有如下特征的数据表的更新: 对数据更新的实时性要求很高、数据更新周期很短、任意时刻均有可能更新;单次 ..
-
自从 AlphaGo 赢了之后,人工智能就变得非常热门了,ChatGPT的出现,更是将人工智能的热度推上了一个新高度。不过,大家在关注“智能”时,却很少把注意力放在“人工”上,似乎感觉上了人工 ..
-
今年以来最热门的的话题,莫过于ChatGPT,它吹响了AI大模型的号角,多家企业和机构以加速度扎堆冲入被ChatGPT轰炸出来的大模型赛道。然而这终究是属于科技巨头们的竞赛,开发大模型需要具备 ..
-
一、 测试任务 电商业务中漏斗分析是常见的统计需求。用户使用智能设备购物时,系统会建立连接形成会话 session。每个会话又包含很多个操作事件 event,比如:访问网站,浏览产品页,下单购 ..
-
组表是SPL重要的文件存储格式。组表文件不支持在读取时同时写入,为保证高性能,组表还常常要求数据有序存储。数据不是一成不变的,还需要持续追加或更新,新产生数据的次序通常和组表要求的次序也不同。 ..
-
1. 应用场景 本例程适用于具有如下特征的数据表的追加: 对数据追加的实时性要求很高、数据追加周期很短、任意时刻均有可能追加;数据只有追加无删除修改的需求;单次追加的数据量比较小,可以全内存存 ..
-
我们知道,早期数据库并不区分 TP 和 AP,所有任务都在一个数据库中完成。做 TP 业务时,要保证数据的一致性,而一致性要限定在一个范围内才有意义,这也就有了“库”的概念。数据入库是有门槛的 ..
-
一、 测试任务 现代商业智能中,指标分析的页面常常会同时呈现出很多个统计指标,这些指标大都从同一个数据集(比如宽表)中计算出来,使用相同的过滤条件,对关心的测度字段按多个(可能几十个)不同维度 ..
-
一、 测试任务 基于位置计算两个实体之间的距离,进而决定是否建立关联关系。这是典型的非等值关联运算,此时不能再使用 HASH 方法来优化。 任务原型来自国家天文台的星体聚类运算,经过简化后描述 ..