数据蒋堂 •
175 引用 •
108 回帖 •
590 关注
博客
关注
-
[图片] 大数据的性能是个永恒的话题。但是,在实际工作中我们发现,许多人都不知道如何进行最简单的性能估算,结果经常被大数据厂商忽悠:)。 这个办法在以往也提到过,不过没有以这个题目明确地点出来 ..
-
10 月 19 日,蒋步星在「天善智能」直播分享了《JOIN 运算的简化与提速》,视频地址:https://edu.hellobi.com/course/197/lessons ( ..
-
[图片] 这里的时序数据泛指一切随时间推移而不断增长的数据,比如通话记录、银行交易记录等。 对于数据库来讲,时序数据并没有什么特殊性,可以和普通数据一样放在数据表中。不过,因为不断增长,积累时 ..
-
[图片] 下面是我在学习了解区块链技术过程中产生的疑问,思考问题的过程中也会让自己对这项技术理解得更深刻。我不算初学者(知道区块链已有五年之久了),但一直也没有深入学习,不能算链圈的专业人士, ..
-
[图片] 随着时间推移,数据库中数据量会越来越大,如果把查询分析都挂到数据库上,有可能会影响到生产系统的正常运行。所以,一般都会将生产数据库中不再变动的数据定期移出到另一个分析数据库中,由分析 ..
-
[图片] 谈到数据分析时常常会用到维度这个词,针对数据立方体的钻取、旋转、切片等操作都是围绕维度进行的,几乎所有的数据分析人员都知道并会运用这个术语,但要问及它的定义,却几乎没有人能给出来。 ..
-
[图片] 大数据概念兴起的同时也带热了非结构化数据分析。传说一个企业中 80% 的数据都是非结构化数据,如果按占据空间来算,这个比例大体不假,毕竟音视频这类数据真地很大。有这么大的数据量,需要 ..
-
[图片] 多维分析就是针对一个事先准备好的数据立方体实施旋转、切片(切块)、钻取等交互操作的过程,经常也被直接称为 OLAP。它的后台运算在结构上很简单,如果用 SQL 语法描述,大体形式为: ..
-
[图片] 【数据蒋堂】第 14 期:计算封闭性导致臃肿的数据库 我们在上一期谈到,数据库的臃肿,也就是过多的中间表以及相关存储过程,是由于其计算封闭性造成的。如果能够实现独立的计算引擎,使计算 ..
-
不知几年前,数据中台这个概念开始变得很热闹,各个机构都要上中台,中台架构意味着先进,人见人爱,也冒出许多以中台为业的软件公司。但大概从去年中开始,听说又有好多机构开始忙着拆中台了,中台虽然还没 ..
-
[图片] 临时性计算,顾名思义,是指临时发生的一些计算需求。这种计算在日常数据处理中很常见,我们举一些例子: 应对业务部门的取数需求:比如销售部门想获得进行了某项促销活动前后的销售情况变化信息 ..
-
[图片] 减少外存(硬盘)访问量一直是提高大数据计算性能的永恒话题,我们也讨论过列存、压缩等直接减少访问量甚至存储量的手段。除了这些存储层面的方法外,在算法和计算实现环节,也可以想办法减少外存 ..
-
[图片] 现代计算机一般都有多 CPU 核,而日益广泛应用的固态硬盘也有较强的并发能力,这些硬件资源都为并行计算提供了有力的保证。不过,要实现并行计算还需要有较好的数据分段技术,也就是能方便地 ..
-
[图片] 索引是经常用到的技术,但有些程序员对索引的原理了解不深,发现数据查询性能有问题立刻就想起建索引,但效果常常也不尽人意。那么到底什么时候该用索引以及该怎么用?我们来分析索引清理背后的技 ..
-
[图片] 大数据的 4 个 V 说法在业界已经尽人皆知,这是指的大数据本身的特征。现在我们来考察一下用于处理大数据的技术应该具有的特性。为方便记忆,类似 4 个 V,我们把这些特性总结成 4 ..
-
[图片] 被狭义化的 OLAP OLAP 这个词从字面上理解是在线分析的意思,也就是由人员面对数据进行各种交互式的分析操作。 但是,现在的 OLAP 概念被严重狭义化了。说到 OLAP,经常是 ..
-
[图片] 我们知道,外存(硬盘)的性能远远低于内存,即使是同样复杂度的运算(CPU 计算量相同),如果能减少外存的访问量,也会大大提高整体性能。甚至有时我们需要用 CPU 换硬盘,即宁可多消耗 ..
-
[图片] 自从 AlphaGo 赢了之后,人工智能就变得非常热门了。不过,大家在关注“智能”时,却很少把注意力放在“人工”上,似乎感觉上了人工智能之后,一切都能自动化了。其实,这份智能的背后有 ..
-
[图片] 我们谈了大清单报表的呈现方法,其实有时候这些报表还需要打印,比如银行打印流水对账单。 那么,打印是不是也要像呈现那样做一个缓存机制呢? 没有这个必要。打印和浏览不同,一般是从头到尾过 ..
-
[图片] 前一阵子公司有个售前来沟通某个用户的情况:数据量比较大,又涉及很多复杂的关联计算,在数据库中用 SQL 计算性能很差。本来这种场景是比较适合集算器的集文件(集算器特有的压缩二进制格式 ..
-
[图片] 我们都知道内存比硬盘要快得多,大概能快出一两个数量级(价格也要贵这么多)。不过,硬盘的问题并不只是访问速度慢。 硬盘不适合做频繁小量访问 所谓频繁小量访问,是指运算过程中每次获取的数 ..
-
[图片] 我们再来看重新定义 JOIN 后如何能够提高运算性能,先看外键式 JOIN 的情况。 设有两个表: products 商品信息表 id商品编号 name商品名称 price单价 …… ..
-
[图片] 上一期我们说了前半有序的数据,这次我们来看看“后半”有序的情况。 回顾一下前半有序的说法:我们要把数据集 T 按字段 a,b 排序时,如果 T 已经对 a 有序,则可以利用这一特点实 ..
-
[图片] 列存是常见的数据存储技术,在许多场景下也确实很有效,因而也被不少数据仓库类产品采用,在业内列存也常常就意味着高性能。 可是,列存真有这么好吗?搜索一下,容易找到的列存缺点一般是针对数 ..
-
[图片] SQL 作为最常用的结构化数据计算语言,在做一些复杂计算时不太方便,但用于描述基本运算还是比 Java 等高级语言要简单许多。这是因为 SQL 是一种集合化的语言,而 Java 等语 ..