数据蒋堂 •
174 引用 •
106 回帖 •
568 关注
博客
关注
-
[图片] 标准 SQL 中提供了五种最常用的聚合运算:SUM/COUNT/AVG/MIN/MAX。观察这几个运算,我们发现它们都可以看成是一个以集合为参数返回单值的函数,我们就先把这个共同点理 ..
-
市场上绝大多数(甚至可以说是全部)云数据仓库都是基于 SQL 的,毕竟数据仓库的主要功能是分析计算,其它 NoSQL 技术的优势主要在 TP,在 AP 方面远远不敌 SQL。参与竞争的云服务商 ..
-
[链接] [链接]三. JOIN 的简化 我们先看如何利用关联都涉及主键这个特征来简化 JOIN 的代码书写,分别讨论这三种情况。 1. 外键属性化 先看个例子,设有如下两个表: employ ..
-
[图片] 我们讲过硬盘的性能特征,主要是针对硬件和操作系统层面进行分析的,现在我们来考虑应用软件层面的差异。 理论上讲,软件可以穿过操作系统直接进行磁盘扇区的访问,但实在太过于麻烦而几乎不会实 ..
-
[图片] Hadoop 是当前重要的大数据计算平台,它试图摒弃传统数据库的理念,重新构建一套新的大数据体系。但是,这并不是件很容易的事,在 Hadoop 的设计和实现中能看到一些先天不足的地方 ..
-
[链接] [链接]二. 等值 JOIN 的剖析 我们来考察下面三种等值 JOIN: 1. 外键关联 表 A 的某个字段和表 B 的主键字段关联(所谓字段关联,就是前一节说过的在等值 JOIN ..
-
中学的哲学课就说过,事物是普遍联系的,所以,很多有业务意义的查询都会涉及多个数据表的关联。 数据分析以及 BI 类软件通常会提供自助查询功能,有些软件还能支持关联查询,但实际使用的大多数还是单 ..
-
[链接] [链接]八、有序归并 我们再来看同维表和主子表的 JOIN,这两种情况的优化提速手段是类似的。 我们前面讨论过,HASH JOIN 算法的计算复杂度(即关联键的比较次数)是 sum( ..
-
[链接] 我们再来研究如何利用 JOIN 的特征实现性能优化,这些内容的细节较多,我们挑一些易于理解的情况来举例,更完善的连接提速算法可以参考乾学院上的《性能优化》图书及课程。 [链接]六、外 ..
-
[链接] [链接]七、进一步的外键关联 我们继续讨论外键 JOIN,并延用上一篇的例子。 当数据量大到无法全部放进内存时,前述的地址化方法就不再有效了,因为在外存无法保存事先算好的地址。 一般 ..
-
[链接] [链接]四. 维度对齐 我们再回顾前面的双子表例子的 SQL: SELECT Orders.id, Orders.customer, A.x, B.y FROM Orders LEF ..
-
http://c.raqsoft.com.cn/article/1620171465902 五. 解决关联查询 我们重新审视和定义了等值 JOIN 运算,并简化了语法。一个直接的效果显然是让语 ..
-
报表的业务稳定性天生很差,业务开展过程中会催生出许多新的查询统计需求,这就会造成了没完没了的报表,这也是许多行业软件开发商头疼的事情。投入很多人力依然搞得灰头土脸,也花了不少钱买了报表工具和 ..
-
当前市场上有不少基于 Hadoop 的商用数据仓库产品,大部分都是有投资背景的,通常来讲,投资这种东西主要是因为有某种技术门槛,指望有过人的技术来挣大钱。但是,仔细分析这个业务,却很难想出它的 ..
-
很多小微型应用程序也需要一些数据处理和计算能力,如果集成一个数据库就显得太沉重了,小巧轻量的 SQLite 是个不错的选择,因而被广泛应用。 不过,SQLite 也有些不方便的地方。SQLit ..
-
大数据时代的分布式数仓(如 MPP)是个热门技术,甚至到了提到数据仓库言必称分布式的地步。 但是,分布式数仓真有必要吗?毕竟这些分布式数仓产品都不便宜,无论是采购成本还是运维成本都很高。是不是 ..
-
手头有些 csv/xls 文件,比如这样的: [图片] [图片] 这种数据很适合用 SQL 做查询,但可惜 SQL 只能用在数据库,要安装个数据库并把这些文件导入,为这么个目标搞的整个应用系统 ..
-
ClickHouse 是近年来分析型数据库的热点,一向以快著称,很多其它以性能为卖点的分析型数据库也常常会用它作为一个对比标杆。很多用户碰到数据库运算性能问题时,也会考虑转向求助于 Click ..
-
就是非常不起眼的帐号去重计数,用 SQL 写就是 COUNT(DISTINCT …)。 帐号去重计数在商业分析中很常见也有重要的业务意义。这里的帐号可能是用户 ID、银行帐户、手机号、车牌号、 ..
-
存储过程是个让人爱恨交加的东西。 它的意义自不必提,各大老牌数据库都支持,而且经常以此来挤兑一些还不支持存储过程的新数据库。反过来,它的缺点也很明显,能见到很多开发团队在努力拆除存储过程,在应 ..
-
年代久远的数据使用频率通常会变低,这时候怎么存储和计算就是个问题。 使用频率低并不等于完全不再使用。如果把这些数据都从数据库中归档出去,再查询统计时又要再次导入数据库,费时费力。经常会发生查询 ..
-
早期应用通常只会连接一个数据库,计算也都由数据库完成,基本不存在多数据源混合计算的问题。而现代应用的数据源变得很丰富,同一个应用也可能访问多种数据源,各种 SQL 和 NoSQL 数据库、文本 ..
-
任意的 SQL 语句都可移植是做不到的。因为各种数据库的功能并不一样,某些数据库的语法在另一种数据库中根本就没有对应的实现机制,这时当然就不可能移植了。 如果我们不用数据库的特殊功能,只在国际 ..
-
连接运算(JOIN)一直是 SQL 中的老大难问题。在关联表稍多一点的时候,代码书写就变得很容易出错了。而且因为 JOIN 语句的复杂,导致关联查询也一向是 BI 软件的软肋,几乎没有 BI ..
-
Oracle 是普遍使用的数据库,它不是专业的分析型数据库,在数据量较大时常常会计算性能不佳,影响用户体验。现在有不少新的分析型数据库在性能上比 Oracle 更快,甚至可以说远超。那么在 O ..