• •      •    643 浏览    •   2022-05-24 08:48:41

    连接运算 3-JOIN 的简化 

    [链接] [链接]三. JOIN 的简化 我们先看如何利用关联都涉及主键这个特征来简化 JOIN 的代码书写,分别讨论这三种情况。 1. 外键属性化 先看个例子,设有如下两个表: employ ..
  • •      •    608 浏览    •   2021-05-03 07:42:42

    连接运算 2- 等值 JOIN 的剖析 

    [链接] [链接]二. 等值 JOIN 的剖析 我们来考察下面三种等值 JOIN: 1. 外键关联 表 A 的某个字段和表 B 的主键字段关联(所谓字段关联,就是前一节说过的在等值 JOIN ..
  • •      •    1,296 浏览    •   2023-12-06 10:29:12

    连接运算 1-SQL 中的 JOIN 

    [链接] 连接运算(JOIN)一直是 SQL 中的老大难问题。在关联表稍多一点的时候,代码书写就变得很容易出错了。而且因为 JOIN 语句的复杂,导致关联查询也一向是 BI 软件的软肋,几乎没 ..
  • •      •    372 浏览    •   2021-04-26 07:08:03

    没完没了的报表怎么破? 

    报表的业务稳定性天生很差,业务开展过程中会催生出许多新的查询统计需求,这就会造成了没完没了的报表,这也是许多行业软件开发商头疼的事情。投入很多人力依然搞得灰头土脸,也花了不少钱买了报表工具和 ..
  • 当前市场上有不少基于 Hadoop 的商用数据仓库产品,大部分都是有投资背景的,通常来讲,投资这种东西主要是因为有某种技术门槛,指望有过人的技术来挣大钱。但是,仔细分析这个业务,却很难想出它的 ..
  • •      •    528 浏览    •   2021-03-24 06:52:33

    自助关联查询难在哪里 

    中学的哲学课就说过,事物是普遍联系的,所以,很多有业务意义的查询都会涉及多个数据表的关联。 数据分析以及 BI 类软件通常会提供自助查询功能,有些软件还能支持关联查询,但实际使用的大多数还是单 ..
  • 如果说有什么通用软件领域是国内产品的技术要比国外产品更好,那估计只有报表工具了。 数据库、操作系统这些耳熟能详的基础软件,国产货和外国货相比是个什么状态,大家也都心知肚明;开发工具、编译器、甚 ..
  • •      •    1,786 浏览    •   2021-03-10 08:21:52

    SQL 是描述性语言? 

    [图片] 我们在学习 SQL 时,常常会看到这样的论调:SQL 是一种描述性语言,你只需要告诉它要做什么,而不需要告诉它怎么做,它会自己找到实现方法。也就是说,你要只用它描述任务目标,而不需要 ..
  • •      •    1,549 浏览    •   2019-02-20 15:10:20

    数据库的封闭性 

    [图片] 我们知道,数据库的数据处理能力是封闭的。所谓封闭性,这里是指要被数据库计算和处理的数据,必须事先装入数据库之内,数据在数据库内部还是外部是很明确的。 数据库一般有 OLTP 和 OL ..
  • •      •    2,262 浏览    •   2018-12-11 17:33:07

    中国报表漫谈 

    按:在敏捷 BI 横行的年代,报表这个概念也有了更大的外延,很多用户甚至技术人员都会将由复杂格式报表与 BI 系统中拖拽出来的报表混为一谈。这是一篇 2004 年底写的老文,现在重读,对于理解 ..
  • •      •    1,774 浏览    •   2018-12-04 17:03:58

    内存数据集产生的隐性成本 

    [图片] 当我们要对数据做一些非常规的复杂运算时,通常要将数据装入内存。现在也有不少程序设计语言提供了内存数据集对象及基本的运算方法,可以较方便地实现这类运算。不过,如果对内存数据集的工作原理 ..
  • [图片] 报表的业务稳定性天生很差,业务开展过程中会催生出许多新的查询统计需求,这就造成了没完没了的报表,这是个无法被消灭的任务,也是许多行业软件开发商非常头疼的事情。投入了很多人力,也引入了 ..
  • •      •    849 浏览    •   2018-11-20 17:09:04

    “后半”有序的分组 

    [图片] 上一期我们说了前半有序的数据,这次我们来看看“后半”有序的情况。 回顾一下前半有序的说法:我们要把数据集 T 按字段 a,b 排序时,如果 T 已经对 a 有序,则可以利用这一特点实 ..
  • •      •    1,169 浏览    •   2018-11-13 21:54:07

    前半有序的大数据排序 

    [图片] 最近碰到这么一个案例,情况可以简化总结成这样:数据库中有表 T,其中有两个重要的字段 a 和 b,a 是一个时间戳,精确到秒;b 是用户号;其它字段用来表示用户 b 在时刻 a 发生 ..
  • •      •    982 浏览    •   2018-11-06 17:10:25

    如何将数据热导出到文件 

    [图片] 随着时间推移,数据库中数据量会越来越大,如果把查询分析都挂到数据库上,有可能会影响到生产系统的正常运行。所以,一般都会将生产数据库中不再变动的数据定期移出到另一个分析数据库中,由分析 ..
  • •      •    994 浏览    •   2018-10-30 12:24:19

    时序数据从分表到分库 

    [图片] 这里的时序数据泛指一切随时间推移而不断增长的数据,比如通话记录、银行交易记录等。 对于数据库来讲,时序数据并没有什么特殊性,可以和普通数据一样放在数据表中。不过,因为不断增长,积累时 ..
  • •      •    1,633 浏览    •   2018-10-23 17:22:35

    BI 系统的前置计算 

    [图片] 某机构上了一套分布式数据仓库,历史数据逐步装进了仓库,然后,基于数据仓库构建了 BI 系统(主要是多维分析)。刚开始,一切都顺利,但随着时间推移,基于中央数据仓库的应用越来越多,几年 ..
  • •      •    1,055 浏览    •   2018-10-16 18:04:56

    性能优化是个手艺活 

    [图片] 大数据的技术本质就是高性能,性能优化也是程序员们的永恒话题。 这里说的性能优化,主要是指在程序员的努力下能达到某种性能提升效果的过程。只要简单换台机器就能加速的事情,业主方要么早就做 ..
  • •      •    1,323 浏览    •   2018-10-10 10:16:13

    数据分布背后的逻辑 

    [图片] 在分布式数据库及大数据平台中,数据如何分布到多台机器中是个很关键的问题。因为很多运算是数据密集型的,如果数据分布做得不好,就会导致网络传输量变大,从而影响性能。 一般来讲,分布式数据 ..
  • •      •    1,332 浏览    •   2018-08-29 11:37:39

    为什么我们需要 C 程序员 

    [图片] 再说一个招聘的话题。 大家可能知道,润乾的软件产品主体都是 Java 写的,几乎没有别的语言。但是,我们在招聘算法程序员时,从来都要求 C 语言背景,会不会 Java 反而无所谓,而 ..
  • •      •    1,883 浏览    •   2018-08-29 11:37:00

    从一道招聘考题谈起 

    [图片] 润乾研发部在招聘时有一个笔试题: 1/2,1/5,1/20,1/64,1/125 都可以写成有限小数,而 1/3,1/7,1/15,1/24 则必须写成无限循环小数。请指出能写成有限 ..
  • •      •    1,596 浏览    •   2021-04-02 06:47:47

    报表工具的 SQL 植入风险 

    [图片] 所有的报表工具都会提供参数功能,主要都是用于根据用户输入的查询条件来选取合适的数据。比如希望查询指定时间段的数据,就可以把时间段作为参数传递给报表,报表在从数据库中取数时将这些参数应 ..
  • •      •    1,056 浏览    •   2018-08-29 11:29:46

    内置的数据无法实现高性能 

    [图片] 这里说的“内”, 是指数据库之内。 当数据量变大时,我们常常会感到数据库的性能下降明显,但是,无论怎样优化 SQL(存储过程)都仍然与根据数据量和运算复杂度计算出来的理论性能相差甚远 ..
  • •      •    2,194 浏览    •   2018-08-10 14:54:36

    怎样生成有关联的测试数据 

    [图片] 在向用户推荐新的数据处理技术,特别是涉及性能优化的场景时,经常会碰到生成测试数据的需求。毕竟,新方案要经过验证才能提交,而优化过程也不是一次就做完的,需要多次不断的迭代改进,这就需要 ..
  • •      •    919 浏览    •   2018-08-10 14:51:37

    遍历复用 

    [图片] 减少外存(硬盘)访问量一直是提高大数据计算性能的永恒话题,我们也讨论过列存、压缩等直接减少访问量甚至存储量的手段。除了这些存储层面的方法外,在算法和计算实现环节,也可以想办法减少外存 ..
关注乾学院公众号