数据蒋堂 •
175 引用 •
108 回帖 •
590 关注
博客
关注
-
[图片] 从早期的多维分析(OLAP)到近年来的敏捷 BI,BI 产品厂商一直在强调自助能力,宣称可以由业务人员自己分析数据,而用户方也常常有强烈的此类需求,双方一拍即合,很容易形成购买行为。 ..
-
[链接] [链接]以下是附录 我们在摘要中说,离散数据集的设计目标是为了解决关系代数的各种问题。但前面的文字仅是在定义离散数据集的数据类型及其上的运算,并没有涉及背后的原因。仅仅阅读上面的正文 ..
-
[图片] 再说一个招聘的话题。 大家可能知道,润乾的软件产品主体都是 Java 写的,几乎没有别的语言。但是,我们在招聘算法程序员时,从来都要求 C 语言背景,会不会 Java 反而无所谓,而 ..
-
[图片] 我们知道,SQL 很像英语,简单的 SQL 语句直接可以作为英语读。除了 SQL 外,其它主要程序设计语言都没有这样,语法中就算有英语单词也仅仅是作为某些概念或操作的助记符而已,写出 ..
-
[图片] 应用系统中的报表,作为面向业务用户的窗口,其性能一直被高度关注。用户输入参数后都希望立即就能看到统计查询结果,等个十几二十秒还能接受,等到三五分钟的用户体验就非常恶劣了。 那么,报表 ..
-
[图片] 我们知道,SQL 延用了数学上的无序集合概念,所以 SQL 的分组并不关注过待分组集合中成员的次序。我们在前面讨论过的等值分组和非等值分组,也都没有关注过这个问题,分组规则都是建立在 ..
-
[图片] 在分布式数据库及大数据平台中,数据如何分布到多台机器中是个很关键的问题。因为很多运算是数据密集型的,如果数据分布做得不好,就会导致网络传输量变大,从而影响性能。 一般来讲,分布式数据 ..
-
[图片] 在传统的报表应用结构中,报表工具一般都是与数据源直接连接,并没有一个中间的数据计算层。确实,大部分情况下的报表开发并不需要这一层,相关的数据计算在数据源和呈现环节分别处理就够了。不过 ..
-
[图片] 最近碰到几家用户在使用 HBase 或者试图使用 HBase 来做高性能查询,场景也比较类似,就是从几十亿甚至上百亿记录中按键值找出相关记录来。按说,这种 key-value 式的数 ..
-
[图片] 我们再来看同维表和主子表的 JOIN,这两种情况的优化提速手段是一样的。 设两个关联表的规模(记录数)分别是 N 和 M,则 HASH 分段技术的计算复杂度(关联字段的比较次数)大概 ..
-
[图片] 我们在《多维分析预汇总的存储容量》中计算过,如果想做到 O(1) 的复杂度,至少要考虑界面用到的各种维度组合,这在维度总量稍多一点时就不可行了。 这样,我们就只能放弃 O(1) 复杂 ..
-
SPL?不是经常宣传来用于数据仓库计算的、叫板 SQL 的语言吗?还能做量化? 没错,SPL 不仅能做大数据高性能算法,还能做股票量化交易策略,不仅可以做,而且方便得很。 长话短说。近三两年来 ..
-
数据库可以说是通用软件领域中最挣钱的产品了,这些年的市场也是相当热闹。这个时刻说数据库会消失,是不是有点胡扯了? 且听我一家之言。 数据库的任务主要是解决数据的存储和计算,只要应用软件还在做, ..
-
[图片] 我们继续讨论外键 JOIN,并延用 上一篇 的例子。 当数据量大到无法全部放进内存时,前述的指针化方法就不再有效了,因为在外存无法保存事先算好的指针。 一般来讲, ..
-
[图片] 细心的读者可能会发现,我们在讨论有序分组时只研究了待分组集合的成员次序对分组运算可能的影响,但即然要考虑集合的有序性,那么结果集的成员次序是不是也有业务意义呢? 确实有意义,不过重要 ..
-
[图片] 前一期 【数据蒋堂】第 23 期:还原分组运算的本意 我们在上一期研究了分组运算的实质,即将一个集合按某种规则拆分成若干子集。不过,上期的关注重点在于还原分组运 ..
-
[图片] 最近碰到这么一个案例,情况可以简化总结成这样:数据库中有表 T,其中有两个重要的字段 a 和 b,a 是一个时间戳,精确到秒;b 是用户号;其它字段用来表示用户 b 在时刻 a 发生 ..
-
[图片] 经常有用户会问这个问题,你家的产品能处理多大数据量?似乎是这个值越大产品就越牛。 这个问题,其实没多大意义。 能处理多大的数据量,还有个很关键的因素是期望的响应时间,在脱离这个因素单 ..
-
[图片] 这里说的“内”, 是指数据库之内。 当数据量变大时,我们常常会感到数据库的性能下降明显,但是,无论怎样优化 SQL(存储过程)都仍然与根据数据量和运算复杂度计算出来的理论性能相差甚远 ..
-
[图片] 用户在选购 BI 解决方案的时候,常常会更关注界面环节的功能指标,比如美观性、操作的流畅性、移动端支持等等。毕竟,BI 是要给业务人员使用的,这些看得见的内容一般不容易被遗漏。 然而 ..
-
[图片] 大数据的技术本质就是高性能,性能优化也是程序员们的永恒话题。 这里说的性能优化,主要是指在程序员的努力下能达到某种性能提升效果的过程。只要简单换台机器就能加速的事情,业主方要么早就做 ..
-
BI 和 AI 中都有个 I,对应的英文单词都是 Intelligence,看起来是同一个意思。 其实不然,即使我们只在商业领域中讨论问题,BI 和 AI 中的 I 也有很大的不同。 广义地来 ..
-
[图片] 在结构化数据处理领域,SQL 无疑是应用最广泛的工作语言,不仅被所有关系数据库采用,许多新进的大数据平台也将实现 SQL 作为目标。但是,SQL 真地好用吗? 人们写代码通常关心两个 ..
-
[图片] 报表开发,看起来只是数据呈现环节的事务,并不起眼,但仔细想想,它涉及的工作范围却非常广。如果把查询和交互分析也认为是报表事务的话(呈现形式本来也是报表),那么可以说,绝大多数 ETL ..
-
[图片] 许多大型用户的数据库(仓库)在运行多年之后,都会积累出很多的数据表,严重者数以万计。这些数据表年代久远,有些已经忘记建设原因,甚至可能已不再有用,但因为很难确认而不敢删除。这给运维工 ..