数据蒋堂 •
175 引用 •
108 回帖 •
590 关注
博客
关注
-
[图片] Hadoop 是个庞大的重型解决方案,它的设计目标本来就是大规模甚至超大规模的集群,面对的是上百甚至上千个节点,这样就会带来两个问题: 1.自动化管理管任务分配机制:这样规模的集群, ..
-
[图片] 标准 SQL 中提供了五种最常用的聚合运算:SUM/COUNT/AVG/MIN/MAX。观察这几个运算,我们发现它们都可以看成是一个以集合为参数返回单值的函数,我们就先把这个共同点理 ..
-
[图片] 这好像是个多余的问题,大部分大数据平台都把集群透明化作为一个基本目标在努力实现。 所谓集群透明化,是指把一个多台机器的集群模拟得像一个巨大的单机,只是系统管理层面知道体系是由很多单机 ..
-
[链接] [链接]二. 等值 JOIN 的剖析 我们来考察下面三种等值 JOIN: 1. 外键关联 表 A 的某个字段和表 B 的主键字段关联(所谓字段关联,就是前一节说过的在等值 JOIN ..
-
[图片] 我们讲过硬盘的性能特征,主要是针对硬件和操作系统层面进行分析的,现在我们来考虑应用软件层面的差异。 理论上讲,软件可以穿过操作系统直接进行磁盘扇区的访问,但实在太过于麻烦而几乎不会实 ..
-
BI 和 AI 中都有个 I,对应的英文单词都是 Intelligence,看起来是同一个意思。 其实不然,即使我们只限定商业决策领域中讨论问题,BI 和 AI 中的 I 也有很大的不同。 广 ..
-
[图片] Hadoop 是当前重要的大数据计算平台,它试图摒弃传统数据库的理念,重新构建一套新的大数据体系。但是,这并不是件很容易的事,在 Hadoop 的设计和实现中能看到一些先天不足的地方 ..
-
[链接]JOIN 系列 [链接] [链接] [链接] [链接] [链接] [链接] [链接] [链接] 连接运算(JOIN)一直是 SQL 中的老大难问题。在关联表稍多一点的时候,代码书写就变 ..
-
基于对象 - 事件模式(schema)的数据计算,可以说是商业中最常见的一种数据分析任务。这里说的对象可以是电商系统用户、游戏玩家、银行账号、手机、车辆等等,通常会有个唯一的 ID,对象涉及的 ..
-
[链接] [链接]八、有序归并 我们再来看同维表和主子表的 JOIN,这两种情况的优化提速手段是类似的。 我们前面讨论过,HASH JOIN 算法的计算复杂度(即关联键的比较次数)是 sum( ..
-
中学的哲学课就说过,事物是普遍联系的,所以,很多有业务意义的查询都会涉及多个数据表的关联。 数据分析以及 BI 类软件通常会提供自助查询功能,有些软件还能支持关联查询,但实际使用的大多数还是单 ..
-
[链接] [链接]四. 维度对齐 我们再回顾前面的双子表例子的 SQL: SELECT Orders.id, Orders.customer, A.x, B.y FROM Orders LEF ..
-
[链接] 我们再来研究如何利用 JOIN 的特征实现性能优化,这些内容的细节较多,我们挑一些易于理解的情况来举例,更完善的连接提速算法可以参考乾学院上的《性能优化》图书及课程。 [链接]六、外 ..
-
[链接] [链接]七、进一步的外键关联 我们继续讨论外键 JOIN,并延用上一篇的例子。 当数据量大到无法全部放进内存时,前述的地址化方法就不再有效了,因为在外存无法保存事先算好的地址。 一般 ..
-
http://c.raqsoft.com.cn/article/1620171465902 五. 解决关联查询 我们重新审视和定义了等值 JOIN 运算,并简化了语法。一个直接的效果显然是让语 ..
-
八、有序归并 我们再来看同维表和主子表的 JOIN,这两种情况的优化提速手段是类似的。 我们前面讨论过,HASH JOIN 算法的计算复杂度(即关联键的比较次数)是 sum(ni*mi),比全 ..
-
二. 等值 JOIN 的分类 我们来考察下面三种等值 JOIN: 1. 外键关联 表 A 的某个字段和表 B 的主键字段关联(所谓字段关联,就是前一节说过的在等值 JOIN 的过滤条件中要对应 ..
-
在结构化数据计算领域,SQL 现在还是应用最广泛的工作语言,不仅被所有关系数据库采用,许多新进的大数据平台也将实现 SQL 作为目标。 对于某种计算技术,人们通常会关心两个效率。一是运算的描述 ..
-
ClickHouse 是近年来分析型数据库的热点,一向以快著称,很多其它以性能为卖点的分析型数据库也常常会用它作为一个对比标杆。很多用户碰到数据库运算性能问题时,也会考虑转向求助于 Click ..
-
报表的业务稳定性天生很差,业务开展过程中会催生出许多新的查询统计需求,这就会造成了没完没了的报表,这也是许多行业软件开发商头疼的事情。投入很多人力依然搞得灰头土脸,也花了不少钱买了报表工具和 ..
-
很多小微型应用程序也需要一些数据处理和计算能力,如果集成一个数据库就显得太沉重了,小巧轻量的 SQLite 是个不错的选择,因而被广泛应用。 不过,SQLite 也有些不方便的地方。SQLit ..
-
七、进一步的外键关联 我们继续讨论外键 JOIN,并延用上一篇的例子。 当数据量大到无法全部放进内存时,前述的地址化方法就不再有效了,因为在外存无法保存事先算好的地址。 一般来讲,外键指向的维 ..
-
我们研究过分组运算的实质,即将一个集合按某种规则拆分成若干子集。不过,讨论重点在于还原分组运算的步骤,并没有讨论拆分规则,例子中都是用某些分组键值来定义拆分规则,也就是 SQL 中使用的方法。 ..
-
我们再来研究如何利用 JOIN 的特征实现性能优化,这些内容的细节较多,我们挑一些易于理解的情况来举例,更完善的连接提速算法可以参考乾学院上的《性能优化》图书及课程。 六、外键预关联 先看全内 ..
-
有过多年应用开发经验的同学大都会体验过数据库 IO 比较慢的情况,但到底会慢到什么程度,特别是和其它读写数据的手段相比的差距,可能很多人还没有感性认识。 Java 是普遍采用的应用开发技术,我 ..