计算&AI •
796 引用 •
800 回帖 •
419 关注
博客
关注
-
逻辑数据仓库技术允许用户在不搬迁原始数据的前提下将多种异构数据源进行逻辑上的融合,对外表现成数据仓库。逻辑数仓可以解决传统数仓数据搬迁导致的数据链路过长无法响应实时数据处理需求的问题,能够很好 ..
-
信息系统建设之初通常只有一个数据库,TP(交易)和 AP(分析)一把抓。随着业务和数据的不断增长,原来的数据库压力变得越来越大。为了不影响交易,业界常用的办法是把数据(通常是冷数据)迁出,把 ..
-
为了获得更好的数据库计算性能,经常会采用 MPP 数据库,如 Greenplum、Vertica、IQ、TD Aster Data 等。MPP 有较好的性能,但应用成本很高。MPP 的硬件资源 ..
-
我们知道,早期数据库并不区分 TP 和 AP,所有任务都在一个数据库中完成。做 TP 业务时,要保证数据的一致性,而一致性要限定在一个范围内才有意义,这也就有了“库”的概念。数据入库是有门槛的 ..
-
当前绝大部分数据仓库都会采用 SQL,SQL 发展了几十年已经成为数据库界的标准语言,用户量巨大,所以支持 SQL 对于数据仓库来讲也是很正常的。但是,在当代大数据背景下,业务复杂度节节攀升, ..
-
SQL 应用很广,数据科学家(分析师)们在日常工作中经常需要用到 SQL 语言进行数据查询和处理。很多企业也认为只要 IT 部门建好数据仓库(数据平台),提供了 SQL 功能,数据科学家们就能 ..
-
使用存储过程跑批一直是常态,存储过程将 SQL 过程化可以满足相对复杂的跑批场景,同时在数据库内运行(数据不出库)性能相对较好。不过,存储过程的缺点也很多。编辑调试困难,缺乏有效的开发环境;移 ..
-
结构化数据的计算处理一直以 SQL 为主。不过随着技术的不断发展,现在经常为了满足扩展性的需要而使用 Java 来处理数据。这样可以显著降低数据库与应用的耦合性(数据库仅用于存储),整体架构更 ..
-
几乎所有行业的核心数据都是结构化的,结构化数据是这个时代最重要的数据资产。那么如何利用处理好这些核心数据自然成了企业经营中的重中之重。当然,结构化数据处理技术也由来已久,SQL、Java、Py ..
-
What?写在格子里的程序语言?! 是的!你没看错,写在格子里的程序语言 SPL(Structured Process Language),专门用于结构化数据处理。 我们知道,几乎所有编程语言 ..
-
封闭的传统数据仓库 我们知道数据仓库是晚于数据库出现的,当 TP 数据库无法满足日益增长的数据分析需要时,人们便通过架设单独的数据库把 AP 业务独立出来就形成了数据仓库(逻辑概念)。后续出现 ..
-
现代大数据应用的结构大概是这样的: [图片] 作为数据中心(中间部分)处于各种应用与数据源之间,对下对接多种数据源处理分析所有数据,对上要为各个应用提供数据服务,其重要性不言而喻。数据中心由于 ..
-
随着数据量不断增长和业务复杂度逐渐攀升,数据处理效率面临巨大挑战。最典型的表现是面向分析型场景的数据仓库性能问题越来越突出,压力大、性能低,查询时间长甚至查不出来,跑批跑不完造成生产事故等问题 ..
-
【本篇可结合 https://c.raqsoft.com.cn/article/1699245988919 阅读】 目前网上有很多涉及 esProc SPL 的帖子,有方案介绍、测试报告、案例 ..
-
SQL 和 SPL 都是面向结构化数据的通用处理技术。SQL 普及率高受众广,很多用户天生就会用 SQL 查询数据,如果数据引擎支持 SQL 就会很容易上手,而且历史程序也相对容易迁移;SPL ..
-
使用分布式集群来处理大数据是当前的主流,将一个大任务拆分成多个子任务分布到多个节点进行处理通常能获得显著的性能提升。因此,只要发现处理能力不足就可以通过增加节点的方式进行扩容,这也是很多拥趸者 ..
-
关系数据库提供了 SQL,因而有较强的计算能力,但很遗憾的是,这个计算能力是封闭的。所谓计算封闭性,是指要被数据库计算和处理的数据,必须事先装入数据库之内,数据在数据库内部还是外部是很明确的。 ..
-
SPL 作为专门用于结构化和半结构化数据的处理技术,在实际应用时经常能比 SQL 快几倍到几百倍,同时代码还会短很多,尤其在处理复杂计算时优势非常明显。用户在看到这些应用效果后对 SPL 往往 ..
-
宽表在 BI 业务中比比皆是,每次建设 BI 系统时首先要做的就是准备宽表。有时系统中的宽表可能会有上千个字段,经常因为“过宽”超过了数据库表字段数量限制还要再拆分。 为什么大家乐此不疲地造宽 ..
-
从一体机、超融合到云计算、HTAP,我们不断尝试将多种应用场景融合在一起并试图通过一种技术来解决一类问题,借以达到使用简单高效的目标。现在很热的湖仓一体(Lakehouse)也一样,如果能将数 ..
-
HTAP(Hybrid Transaction and Analytical Process,混合事务和分析处理)自 2014 年明确提出以后成为了很多数据库厂商努力的方向。其实 HATP 并 ..
-
SQL 作为目前最常用的数据处理语言,广泛应用于查询、跑批等场景。当数据量较大时,使用 SQL(以及存储过程)经常会发生跑得很慢的情况,这就要去优化 SQL。优化 SQL 有一些特定的套路,通 ..
-
我们工作中写 SQL 处理数据是家常便饭,不管是应用内数据处理还是临时查询分析都可以用 SQL 完成,相对其他技术(如 Java 等高级语言)也更简单。不过,SQL 的简单只限于简单需求,有些 ..
-
数据湖概述 提到数据湖就要先说一下数据仓库,数据仓库是集成多业务系统数据、面向主题的、专门用于数据查询分析的数据组织形式。当业务系统数据量不断增大、业务系统数量不断增多以后,数据仓库的出现就会 ..
-
从 2015 年阿里提出“大中台”的数据中台战略,到 2019 年大厂及中台服务商“大兴”数据中台,再到 2021 年大厂又开始拆中台。数据中台从小甜甜变成牛夫人仅仅用了 2 年时间,为什么这 ..