计算&AI •
994 引用 •
1074 回帖 •
474 关注
博客
关注
-
【摘要】 把集合中具有相同属性的成员分配到同一个组,这就是分组运算。比如员工表根据部门分组,每组的员工都具有相同的部门;销售表可以根据销售年份分 ..
-
两个大表做关联,常常会出现性能问题。其中比较常见的一种情况,是用一个大表的非主键字段,去关联另一个大表的主键。例如:订单表 orders 和客户表 customer 都很大,内存无法装下。订单 ..
-
报表的数据来源非常丰富,理论上任何数据源都可能同时作为报表的数据源来源,RDB、NoSQL、CSV、Excel、Json、Hadoop 不一而足,这就产生了报表开发中的多源问题。如何解决多源带 ..
-
有些报表的运算比较复杂,从原始数据到呈现需要经过多步加工,如何更简单高效地实现复杂多步骤的运算直接影响到报表开发效率和性能。本文将比较几种常见的报表多步骤数据准备的方法。 复杂 SQL/ 存储 ..
-
报表是很多 web 应用系统不可缺少的模块,仍然是绝大多数 BI 项目的基础功能。随着数据时代的到来,数据来源越来越多样 (text,excel,monogdb,redis,es…),为报表数 ..
-
一、 查询要求 Q7 语句是查询得到在 1995 年和 1996 年间,零件从一国供应商被运送给另一国的顾客,两国货运项目总的折扣后收入。查询 ..
-
量化交易一个绕不开的步骤就是回测,任何策略都要在历史数据中验证后才可能用于模拟盘甚至是实盘进行交易,本文就来介绍 SPL 怎么完成回测。 话不多说,直接上干货。 假设现在已经有了某个策略生成的 ..
-
我们来看一个例子,下图是一组球员的年收入数据,单位万美元,他们的平均收入是多少? [图片] 很容易,我们能够计算出他们的平均年收入是 597 万美元,这么看球员似乎是一个非常高薪的职业,但是仔 ..
-
一、 查询要求 Q9语句是查询每个国家每一年所有被定购的零件在一年中的总利润。 Q9语句的特点是:带有分组、排序、聚集、子查询操作并存的查询操 ..
-
SPL 中的关联计算和 SQL 有很大不同,SQL 把连接定义为笛卡尔积后再过滤。SPL 也提供了这种运算,但在绝大多数场景下都有更好的替代方法,因而并不推荐使用。 应用 SPL 编程实现关联 ..
-
大数据表关联时,有时会先对关联表做条件过滤。对于关联字段是主键或者部分主键的情况,SPL 在有序归并关联算法(参考这里)的基础上提供关联定位算法,来提升过滤后关联的计算性能。 先来看关联表按照 ..
-
报表业务的稳定性差,报表数据来源(数据准备)经常需要修改,修改后的报表能否做到不停机热切换(HotSwap)对报表应用来说十分重要。本文将探讨几种报表数据源的热切换技术并加以对比。 SQL 基 ..
-
一、 查询要求 Q14语句查询获得某一个月的收入中有多大的百分比是来自促销零件。用以监视促销带来的市场反应。 Q14语句的特点是:带有聚集、连 ..
-
在SPL中,从数据源将数据读成序表以后,就可以进行所有SQL式的运算,如过滤、汇总、跨列计算、排序、分组汇总、分组过滤、Top-N、分组Top-N、去重、分组去重、关联查询等。本文以文件数据源 ..
-
【摘要】 从原理上分析 SQL 语句慢的原因,用代码示例给出提速办法。点击了解 ${article} 问题描述 数据表 T 的字段 x 按照集合 X={X1=Xn。分段之后,按照段号分组汇总。 ..
-
一、 测试任务 TPCH 100G。 TPCH是国际标准,具体内容不再过多解释。 需要说明的是,TPCH 虽然有 22 个题,但仍然不能全面反映出被测系统对实际业务的响应性能。主要原因如下两点 ..
-
Java虚拟机参数的配置有时候会对SPL的性能产生很大影响,本文从排序函数sortx的使用出发,探索如何通过优化JVM参数配置来提升性能。对分析过程不感兴趣的同学可以直接阅读结论章节。 1 内 ..
-
一、 测试任务 基于位置计算两个实体之间的距离,进而决定是否建立关联关系。这是典型的非等值关联运算,此时不能再使用 HASH 方法来优化。 任务原型来自国家天文台的星体聚类运算,经过简化后描述 ..
-
一、 测试任务 电商业务中漏斗分析是常见的统计需求。用户使用智能设备购物时,系统会建立连接形成会话 session。每个会话又包含很多个操作事件 event,比如:访问网站,浏览产品页,下单购 ..
-
【摘要】 用实例、分步骤,详细讲解多维分析(OLAP)的实现。点击了解 ${article} 实践目标 本期目标是在上期基础上,将客户宽表全部数据与分支机构等多个维表关联,并通过维表字段进行切 ..
-
异构库的数据比对是指分别在不同类型数据库中的两张逻辑结构相同的数据表,进行数据比较,找出差异。 问题描述 数据对比的难点在于异构数据库间的数据类型和数据库本身在处理数据上存在的差异,这会导致同 ..
-
一、 查询要求 Q12 语句查询某一年在指定的两种货运模式下,早于交货日期发货而消费者迟于交货日期收到货物的订单中,按货运模式分组统计订单优先 ..
-
一、 查询要求 Q5 语句查询出在某一年某一地区各个国家的收入,这些收入是通过那些定购零件的顾客和供应零件的供应者都在那个国家的交易获得的。这 ..
-
应用计算困境 顾开发还是顾架构? Java 是当前应用开发最常用的语言,但是 Java 写数据处理的代码并不简单,比如针对两个字段的分组汇总要写成这样: Map> summary = n ..
-
中间表是数据库中专门存放中间计算结果的数据表,往往是为了前端查询统计更快或更方便而在数据库中建立的汇总表,由于是由原始数据加工而成的中间结果,因此被称为中间表。在某些大型机构中,多年积累出来中 ..