计算&AI •
1002 引用 •
1079 回帖 •
472 关注
博客
关注
-
关系数据库提供了 SQL,因而有较强的计算能力,但很遗憾的是,这个计算能力是封闭的。所谓计算封闭性,是指要被数据库计算和处理的数据,必须事先装入数据库之内,数据在数据库内部还是外部是很明确的。 ..
-
SPL 作为专门用于结构化和半结构化数据的处理技术,在实际应用时经常能比 SQL 快几倍到几百倍,同时代码还会短很多,尤其在处理复杂计算时优势非常明显。用户在看到这些应用效果后对 SPL 往往 ..
-
宽表在 BI 业务中比比皆是,每次建设 BI 系统时首先要做的就是准备宽表。有时系统中的宽表可能会有上千个字段,经常因为“过宽”超过了数据库表字段数量限制还要再拆分。 为什么大家乐此不疲地造宽 ..
-
从一体机、超融合到云计算、HTAP,我们不断尝试将多种应用场景融合在一起并试图通过一种技术来解决一类问题,借以达到使用简单高效的目标。现在很热的湖仓一体(Lakehouse)也一样,如果能将数 ..
-
HTAP(Hybrid Transaction and Analytical Process,混合事务和分析处理)自 2014 年明确提出以后成为了很多数据库厂商努力的方向。其实 HATP 并 ..
-
SQL 作为目前最常用的数据处理语言,广泛应用于查询、跑批等场景。当数据量较大时,使用 SQL(以及存储过程)经常会发生跑得很慢的情况,这就要去优化 SQL。优化 SQL 有一些特定的套路,通 ..
-
我们工作中写 SQL 处理数据是家常便饭,不管是应用内数据处理还是临时查询分析都可以用 SQL 完成,相对其他技术(如 Java 等高级语言)也更简单。不过,SQL 的简单只限于简单需求,有些 ..
-
数据湖概述 提到数据湖就要先说一下数据仓库,数据仓库是集成多业务系统数据、面向主题的、专门用于数据查询分析的数据组织形式。当业务系统数据量不断增大、业务系统数量不断增多以后,数据仓库的出现就会 ..
-
从 2015 年阿里提出“大中台”的数据中台战略,到 2019 年大厂及中台服务商“大兴”数据中台,再到 2021 年大厂又开始拆中台。数据中台从小甜甜变成牛夫人仅仅用了 2 年时间,为什么这 ..
-
DCM 是什么 现代应用无时无刻不在与数据打交道,数据计算无处不在,报表统计、数据分析、业务处理不一而足。当前数据处理的主要手段仍然是以关系数据库为代表的相关技术,虽然使用高级语言(如 Jav ..
-
多维分析(OLAP)通常要求极高的响应效率,当涉及的数据量很大时,每次都基于明细数据汇总效率就会很低,人们会考虑采用预汇总的方式加快查询速度,即事先将要查询的结果计算好,使用时直接读取预汇总结 ..
-
T+0 问题 T+0 查询是指实时数据查询,数据查询统计时将涉及到最新产生的数据。在数据量不大时,T+0 很容易完成,直接基于生产数据库查询就可以了。但是,当数据量积累到一定程度时,在生产库中 ..
-
中间表是数据库中专门存放中间计算结果的数据表,往往是为了前端查询统计更快或更方便而在数据库中建立的汇总表,由于是由原始数据加工而成的中间结果,因此被称为中间表。在某些大型机构中,多年积累出来中 ..
-
ETL 是将数据从来源端经过清洗(extract)、转换(transform)、加载(load)至目的端的过程。正常的 ETL 过程应当是 E、T、L 这三个步骤逐步进行,也就是先清洗转换之后 ..
-
[链接]文本为什么更慢? 文本文件慢的原因,主要在于会多出很多数据类型解析的动作。 举个例子,设想一下把文本“12345' 转成内存二进制整数 12345 的过程: 1. 先设结果的初始值为 ..
-
现代信息系统多数据源的情况很常见,尤其分析型应用经常要跨多数据源混合计算实现数据统计分析。由于数据源种类众多,有 RDB,也有 NoSQL,还有 CSV、Excel 等文件,JSON、XML ..
-
使用数据库存储数据很常见,数据库不仅提供了多种存储策略,还可以满足数据一致性的要求,基于数据库还能很方便完成数据计算,但使用数据库存储数据也有一些缺点,在一些场景下并非最佳选择。与数据库相对的 ..
-
报表查询分析都要涉及数据准备,就是把原始数据加工成可以呈现或分析的形式(如常见的报表数据集)。不过,数据准备经常并不轻松,可能面临各种复杂的情况。 数据准备面临的挑战 多样性数据源 当前业务的 ..
-
先说观点:因为还没找到更好的。 接下来说原因,首先来看看大数据平台都在干什么。 原因 结构化数据计算仍是重中之重 大数据平台主要是为了应对海量数据存储和分析的需求,海量数据存储的确不假,除了生 ..
-
针对存储过程优缺点的讨论(争论)由来已久,这里我们不妨来详细盘点一下存储过程的利与弊。 先说优点 毕竟还是有不少人在用,总要有点好处。 SQL 过程化 很少人提及存储过程的这个优点,似乎是认为 ..
-
随着微服务的流行,越来越多应用采用微服务架构开发。如何简单高效地在微服务中完成数据处理成为大家不得不面对的问题。以往单体应用架构下,我们可以借助数据库实施计算,SQL 是专用的集合计算语言,依 ..
-
我们知道,数据库的数据处理能力是封闭的。所谓封闭性,这里是指要被数据库计算和处理的数据,必须事先装入数据库之内,数据在数据库内部还是外部是很明确的。 数据库一般有 OLTP 和 OLAP 两个 ..
-
现在应用中的报表大都使用报表工具开发,成熟的报表工具提供了丰富的显示设置、图表类型、导出打印等功能可以简化报表开发,非常方便。但是,实际报表开发中还是经常碰到一些非常棘手的深层次问题,即使是已 ..
-
OLAP(Online Analytical Processing)是指在线联机分析,基于数据查询计算并实时获得返回结果。日常业务中的报表、数据查询、多维分析等一切需要即时返回结果的数据查询任 ..
-
T+0 查询是指实时数据查询,数据统计时可以查询到最新产生的数据。对应的还有 T+1、T+7 等,对应表示只能查询 1 天或 7 天以前的数据,显然这种 T+N 查询的数据是非实时的。本文将要 ..