"[图片] 前一期【数据蒋堂】第 21 期：常规遍历语法我们继续讨论遍历运算的语法规则。 5. 序号的引用 SQL 延用了数学上的无序集合概念，遍历时也不关注次序。但计算机只能一步 .."

279400248 北京
乾学院 50 号会员
1,094 浏览 • 7 年前

【数据蒋堂】第 22 期：有序遍历语法

数据蒋堂

sjjt-22

我们继续讨论遍历运算的语法规则。

SQL 延用了数学上的无序集合概念，遍历时也不关注次序。但计算机只能一步步地执行（暂先不考虑并行计算的情况），遍历集合时总会有个次序，充分利用这个次序就可以方便地表达更丰富的计算需求。

比如我们想从一个集合取出半数成员构成新集合。这看起来象是过滤运算，但过滤条件和集合成员本身并没有关系，而是由遍历成员时的次序号决定的。

只有 ~ 写法无法方便地描述出这种运算，这时候还需有个符号（标识符）来表示遍历的次序号。

事实上，大部分高级语言在写循环语句时都会有个循环变量来表示次序号，就起到了这个作用。但许多集合化语言中并没有提供这个机制，碰到这种运算就只能再写循环才能完成，就显得很繁琐。SQL 也没有表示遍历次序后的方案，只能先用子查询人为制造一个序号出来再针对这个序号进行过滤。

我们用 #来表示遍历的次序号，那么这个运算就很容易写了：

A.select(#<=A.len()/2)       取前一半成员
A.select(#%2==0)             取偶数位置的成员

对应地，在过滤运算中我们总是返回满足条件的成员，但有时候我们并不关心具体成员而只关心成员的次序号，那么我们还有必要设计返回次序号的过滤函数：

 A.pselect( ~>5 )              返回大于5的成员的次序号

类似地，还可能有：

 A.pmax()                         返回最大值的次序号
  …

考虑到遍历的次序时，我们还可以进一步丰富计算的描述能力。

比如有 12 个月的销售额数据已经按次序准备好，要计算哪些月份的增长率超过了 5%。

SQL 很难写这种跨行计算，需要用 JOIN 语句或窗口函数把上月数据和本月数据对齐，然后再来计算增长率，这不可避免地用到子查询。

如果我们提供了相邻成员的引用语法，就可以很容易描述这个计算了。

比如用 [i] 表示和当前成员距离为 i 的成员，再结合前述的 #写法，上面的计算就可以写成：

A.(if(~/~\[-1\]>1.05,#,0)).select(~>0)

~[-1] 表示前一个成员，也就是上月销售额。找出把增长率超过 5% 的月份（也就是 #），其它月份清 0，最后选出这些非 0 的月份。

如果用上述的返回次序号的过滤函数，还可以写成更简单的形式：

 A.pselect(~/~\[-1\]>1.05)

除了相邻成员外，还可能有相邻集合的引用，比如还是上面的集合，我们希望计算前后各一个月的销售额移动平均值。

把 [i] 表达式扩展成 [a,b] 写法来表示相邻成员构成的集合，这个运算就很容易描述了：

 A.(~\[-1,1\].avg())

相邻集合还可能有更复杂的情况，比如计算到当月的累积销售额。

允许 [a,b] 写法中 a 缺省表示从第一个成员开始（对等地，b 缺省可以理解为最后一个成员），这个运算可以写成

 A.(~\[,0\].sum())

同样的，面向结构化数据计算也还可以直接使用字段名，比如如果例子中的集合是由“月份”和“销售额”的两个字段构成的表，则上述的运算可以分别写成：

 A.select(销售额/销售额\[-1\]>1.05)           这里结果集中已有月份字段，不再需要用#了
 A.derive(销售额\[-1,1\].avg:移动平均值)       增加一个字段表示移动平均
 A.derive(销售额\[,0\].sum():累计销售额)

考虑到有序遍历时，其语法规则就比常规遍历要复杂许多，而这些有序遍历也是实际计算中经常发生的，如果遍历语法不支持，会导致这些计算难以描述，程序员就要再编写多行循环语句，繁琐且影响可读性。

SQL 没有提供有序遍历的语法，经常需要使用子查询和窗口函数来生成序号，某些复杂些的有序遍历运算甚至写不出来，也要用存储过程手段转换成多行循环语句才可以。从这个意义讲，SQL 虽然是集合化语言，但集合化不够彻底。

目录