计算&AI •
990 引用 •
1070 回帖 •
471 关注
博客
关注
-
数据量大或者数据库繁忙都会导致数据库查询变慢,这时将数据用 esProc 导出存成文件再计算可以大幅提升性能。 数据与用例 MySQL 数据库有 orders_30m 表存储着历年的订单数据, ..
-
今天,企业的数据来源已经从原来的“就几张表”发展到数据库、文件、接口、流式数据、对象存储、NoSQL……五花八门。能不能搞定“多数据源混算”,已经成了数据计算技术的重要标准之一。 说起多源混算 ..
-
背景 报表作为业务决策的重要依据却有着不稳定的特点,随时需要根据新的需求进行调整和优化。这种频繁的调整和更新要求报表系统具备极高的灵活性和响应速度。换句话说,报表应用能够在不停止服务的情况下, ..
-
现代数据分析业务(如常见的报表应用)经常要从不同系统中提取数据,这些数据分散在各个地方,格式和存储形式也不一样,更新速度也不统一。CRM 里的销售数据、财务系统里的财务数据,ERP 里的库存数 ..
-
SQL 用于数据分析其实会很浅 SQL 被广泛用于数据分析,经常会被当成数据分析师的默认技能。的确,数据库环境下会写 SQL 是很方便,想查什么写句 SQL 似乎就能搞定。比如,查个用户分组销 ..
-
实时热数据报表,是指能够实时查询全量冷热数据的报表。早期业务只基于单个 TP 数据库时,这种报表并不是什么问题。但数据量大了,要拆分到专门的 AP 数据库后,就不一样了。因为冷热数据分离后,再 ..
-
背景 报表经常会基于多种数据源,如 RDB、NoSQL、文本、Excel、MQ 等。 [图片] 借助逻辑数据仓库可以一定程度上实现多源混算,但其架构往往过于复杂和沉重,需要繁琐的预处理过程以运 ..
-
背景 与一般事务处理(TP)系统相比,报表中的 SQL 更频繁地使用各种计算函数,计算逻辑也更加复杂,对 SQL 的依赖更强。报表开发中可能应对数据库的变化,不同数据库的 SQL 语法虽大体相 ..
-
数据分析师的日常离不开各种数据操作,过滤、分组、汇总、排序……,面对这些基本需求,SQL 用起来确实得心应手。比如,查个用户分组销售额、筛选一批重要客户,这样的任务用 SQL 写出来就像英语一 ..
-
Excel 数据分析师们的江湖难题 在数据江湖中,Excel 数据分析师们就像一群手握“倚天剑”的侠客,凭借着 Excel 的强大交互性和简便操作,在数据的世界里快意恩仇,行侠仗义。然而,江湖 ..
-
数据分析需要探索式 对于数据分析,许多任务并非固定的查询,而是需要灵活的分析和判断。比如,电商数据中的用户行为分析、产品推荐、库存优化,或者金融行业的风险评估和客户分类等,都往往没有预先固定的 ..
-
强计算和交互性的两难 Excel 和 BI 是常用的数据分析工具,很适合完成初级的数据分析任务,比如统计各月销售总额,计算各组的平均订单金额和购买频次等。但随着业务需求升级,更复杂的任务用 E ..
-
是的!你没看错,SPL,Structured Process Language,就是这样一种写在格子里的开源程序设计语言,专门用于处理结构化数据。 我们知道,几乎所有编程语言都是写成文本的,那 ..
-
SQL 正在消耗数据科学家的生命 SQL 难写 数据科学家几乎都会用 SQL 做探索分析,SQL 看上去很简单,也有一定的交互性,做数据探索分析似乎很不错。 比如要进行过滤、分组等计算,简单一 ..
-
应用计算困境 顾开发还是顾架构? Java 是当前应用开发最常用的语言,但是 Java 写数据处理的代码并不简单,比如针对两个字段的分组汇总要写成这样: Map> summary = n ..
-
esProc SPL 作为数据计算引擎,具备低代码、高性能、轻架构、全场景4 个主要特点,后面的内容我们会详细讲解。 esProc 是什么? 首先我们来了解一下 esProc 是什么? [图片 ..
-
实践背景 通过 RESTful 交换数据很方便,但接收数据后如何继续计算会有点麻烦。SPL 提供了 HTTP 接口,可以直接读取 RESTful 的数据后进行计算。 如下例,电商业务中订单数据 ..
-
Download PDF [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片 ..
-
提到数据库首先想到的会是 Oracle、DB2、SQL Server、MySQL、PostgreSQL 等大名鼎鼎的产品,这些数据库都采用独立进程的方式运行,即独立部署数据库服务通过接口与应用 ..
-
在报表、BI、跑批等数据分析业务中,性能不足时经常会想到内存数据库。所谓内存数据库是指全量数据永驻内存,计算时不需要从外存(硬盘)读取,避免磁盘 IO,可以有效提升数据处理性能。 内存数据库被 ..
-
关联查询一直是 BI 的老大难,为了解决关联问题,采用宽表(CUBE)是一种常见的手段,即通过事先构建宽表消除多表关联来绕过关联查询的难题。 但这样做会导致 BI 的灵活性变差。 我们来考察 ..
-
宽表经常是 BI 系统的标配,很多 BI 项目在建设之初首先就会准备宽表。宽表是将有一定关联关系的多个表连接成一个表,结果集不符合范式要求,会存在大量数据冗余。同时宽表由于需要事先建立,在使用 ..
-
数据计算上云可以帮助企业降本增效,常见的方式是选用云数据仓库。当前几乎所有云数仓都是从传统数据仓库演变而来的,数据仓库诞生之初并没有上云的考虑,云数仓会面临存算分离、弹性扩展、Serverle ..
-
逻辑数据仓库技术允许用户在不搬迁原始数据的前提下将多种异构数据源进行逻辑上的融合,对外表现成数据仓库。逻辑数仓可以解决传统数仓数据搬迁导致的数据链路过长无法响应实时数据处理需求的问题,能够很好 ..
-
信息系统建设之初通常只有一个数据库,TP(交易)和 AP(分析)一把抓。随着业务和数据的不断增长,原来的数据库压力变得越来越大。为了不影响交易,业界常用的办法是把数据(通常是冷数据)迁出,把 ..