"在数据库应用开发中，我们经常需要面对复杂的SQL式计算，固定分组就是其中一种。固定分组的分组依据不在待分组的数据中，而是来自于外部，比如另一张表、外部参数、条件列表等。对于特定类型的固定分组， .."

WuNan 北京
乾学院 42 号会员
1 回帖 • 1,629 浏览 • 4 年前

SPL 简化 SQL 案例详解：固定分组

计算＆AI

在数据库应用开发中，我们经常需要面对复杂的SQL式计算，固定分组就是其中一种。固定分组的分组依据不在待分组的数据中，而是来自于外部，比如另一张表、外部参数、条件列表等。对于特定类型的固定分组，用SQL实现还算简单（比如：分组依据来自另一张表，且对分组次序没有要求），但对于比较通用、灵活的要求，实现起来就困难了。

而对于SPL来说，完全可以轻松解决固定分组中的各类难题，下面就用几个例子来说明。

表sales存储着订单记录，其中CLIENT列是客户名，AMOUNT列是订单金额。表sales的部分数据如下：

OrderID	Client	SellerId	OrderDate	Amount
10248	VINET	5	2013/7/4	2440
10249	TOMSP	6	2013/7/5	1863.4
10250	HANAR	4	2013/7/8	1813
10251	VICTE	3	2013/7/8	670.8
10252	SUPRD	4	2013/7/9	3730
10253	HANAR	3	2013/7/10	1444.8
10254	CHOPS	5	2013/7/11	625.2
10255	RICSU	9	2013/7/12	2490.5
10256	WELLI	3	2013/7/15	517.8

要求将sales按照“潜力客户列表”进行分组，并对各组的AMOUNT列汇总求和。这里的“潜力客户”就是一种固定分组，可能来自于外部不同的条件设定：

案例一：潜力客户列表来自于另外一张表potential的Std字段，只有四条记录，依次为：ANATR、BERGS、LACOR、ZTOZ，并且客户ZTOZ不在sales表中。在输出结果时，要求按照上述记录顺序来分组汇总。

如果我们对分组的顺序没有要求，那么SQL可以较简单地实现本案例：

select potential.std as client, sum(sales.amount) as amount from potential left join client on potential.std=sales.client group by potential.std。

但如果像本案例中要求的那样，按照特定的顺序来分组，那么用SQL实现的话就必须制造一个用于排序的字段，最后还要用子查询去掉这个字段。而用SPL实现则会简单很多，代码如下：

	A
1	=sales=db.query ("select * from sales")
2	=potential=db.query("select * from potential")
3	=sales.align@a(potential:STD,CLIENT)
4	=A3.new(potential(#).STD:CLIENT,~.sum(AMOUNT):AMOUNT)

A1、B1：从数据库检索数据，分别命名为sales和potential，如下所示：

A3：=sales.align@a(potential:STD,CLIENT)

这句代码使用了函数align，它将sales的Client字段按照potentail的Std字段顺序对位分为四个组，如下：

可以看到，前三个组是sales中已有的数据，而第四个组不在sales中，因此是空值。另外，函数align的参数选项@a表示取出分组中的所有数据，如果不用这个函数选项，则只取每组的第一条。

A4：=A3.new(potential(#).STD:CLIENT,~.sum(AMOUNT):AMOUNT)

这句代码用函数new产生新的序表，成员一个是potential.STD，即potential的Std字段；另一个是~.sum(AMOUNT)，即对A3中每组数据的Amount字段的求和结果。最终结果如下：

案例二：潜力客户列表是固定值，但客户的数量较多。

如果客户的数量较少，用SQL时可以用union语句将所有的客户拼成一个假表，如果客户数量较多，这么做就可不取了，必须新建一张表持久保存数据才行。而用SPL实现却可以省去建表的麻烦，代码如下：

	A
1	=sales=db.query ("select * from sales")
2	=potential=["ALFKI","BSBEV","FAMIA","GALED","HUNGC","KOENE","LACOR","NORTS","QUICK","SANTG","THEBI","VINET","WOLZA"]
3	=sales.align@a(potential,CLIENT)
4	=A3.new(potential(#):CLIENT,~.sum(AMOUNT):AMOUNT)

上述代码中，A2是个字符串组成的序列，并命名为potential。A3、A4可以像案例一那样对potential访问，直接引用其成员。

案例三：潜力客户列表是外部参数，形如："BSBEV","FAMIA","GALED"。

外部参数经常变化，在SQL中用union来制造假表就更不方便了，只能创建一个临时表，将参数解析后一条条插入临时表，再进行后续的计算。而用SPL实现则不必建立临时表，具体实现过程如下：

首先定义一个参数clients，如下：

然后修改脚本文件，如下：

	A
1	=sales=db.query ("select * from sales")
2	=potential=clients.array()
3	=sales.align@a(potential,CLIENT)
4	=A3.new(potential(#):CLIENT,~.sum(AMOUNT):AMOUNT)

运行脚本，并输入的参数值，假设参数值为"BSBEV","FAMIA","GALED"，如下：

分组依据输入不同，最终计算结果也不一样。上面输入对应的结果如下：

案例四：固定分组的分组依据可以是数值，也可以是条件，比如：将订单金额按照1000、2000、4000划分为四个区间，每个区间一组订单，统计各组订单的总额。

如果条件是已知，那就可以将这些条件写死在SQL里，如果条件是动态的外部参数，则需要用JAVA等高级语言拼凑SQL，过程非常复杂。而由于SPL支持动态表达式，因此可以轻松实现本案例，代码如下：

	A
1	=sales=db.query ("select * from sales")
2	=byFac=["?<=1000" ,"?>1000 && ?<=2000","?>2000 && ?<=4000","?>4000"]
3	=sales.enum(byFac,AMOUNT)
4	=A18.new(byFac(#):byFac,~.sum(AMOUNT):AMOUNT)

上述代码中，变量byFac是本案例的分组依据，包含四个条件。byFac也可以是外部参数，或者来自于数据库中的视图或表。A4中的最终结果如下：

案例五：

上述条件分组中，条件恰好都没有发生重叠，但实际情况中发生重叠的情况也很常见，比如将订单金额按照如下规则分组：

1000至4000：常规订单r14

2000以下：非重点订单r2

3000以上：重点订单r3

这时，r2和r3都会和r14发生条件重叠。条件发生重叠时，我们有时希望数据不重叠，即先取出符合r14的数据，再从剩下的数据中筛选出r2，以此类推。

SPL的函数enum支持数据重叠的条件分组，如下：

	A
1	=sales=db.query ("select * from sales")
2	=byFac=["?>=1000 && ?<=4000" ,"?<=2000","?>=3000"]
3	=sales.enum(byFac,AMOUNT)
4	=A3.new(byFac(#):byFac,~.sum(AMOUNT):AMOUNT)