性能优化案例课程 TPCH-Q4
select
o_orderpriority,
count(*) as order_count
from
orders
where
o_orderdate >= date '1995-10-01'
and o_orderdate < date '1995-10-01' + interval '3' month
and exists (
select * from lineitem
where l_orderkey = o_orderkey and l_commitdate < l_receiptdate
)
group by
o_orderpriority
order by
o_orderpriority;
SQL 语句有一个 exists 子查询,找出子表 lineitem 中有满足条件 l_commitdate < l_receiptdate 的记录。exists 子句都可以改写成 join,将 exists 改写成 join 之后是这样:
select
o_orderpriority,
count(*) as order_count
from (
select
o_orderkey,o_orderpriority
from orders join (
select l_orderkey
from lineitem
where l_commitdate < l_receiptdate
group by l_orderkey
) on l_orderkey = o_orderkey
where
o_orderdate >= date '1995-10-01'
and o_orderdate < date '1995-10-01' + interval '3' month
)
group by
o_orderpriority
order by
o_orderpriority;
改写之后可以发现,这是对子表进行过滤分组聚合,然后再与主表一对一连接的问题。
1. 数据存储
大表 orders、lineitem 按照主键 orderkey 有序存储,子表 lineitem 按照主键 orderkey 有序分组聚合后依然对主键有序,可以和主表 order 有序归并。
这样,直接使用 Q3 中的 order.ctx、lineitem.ctx 即可。
将这些表复制到本题的主目录中。
2. 先分组聚合后连接
按照先对子表 lineitem 有序分组,然后再与主表 order 有序归并的思路计算。
计算代码如下:
A |
B |
|
1 |
=now() |
|
2 |
1995-10-01 |
3 |
3 |
=elapse@m(A2,B2) |
|
4 |
=file("orders.ctx").open().cursor@m(O_ORDERKEY,O_ORDERPRIORITY;O_ORDERDATE>=A2 && O_ORDERDATE<A3) |
|
5 |
=file("lineitem.ctx").open().cursor(L_ORDERKEY;L_COMMITDATE<L_RECEIPTDATE;A4) |
|
6 |
=A5.group(L_ORDERKEY) |
|
7 |
=A4.joinx@im(O_ORDERKEY,A6:L_ORDERKEY) |
|
8 |
=A7.groups(O_ORDERPRIORITY;count(1):order_count) |
|
9 |
=interval@ms(A1,now()) |
A4、A5 使用游标前过滤机制。
A6 对 lineitem 按照主键 orderkey 有序分组,结果依然对 orderkey 有序。
A7 用分组后的 lineitem 和主表 order 按照主键有序归并。
测试结果:
测试项目 |
执行时间(秒) |
先聚合后归并 |
13 |
3. 连接时直接聚合
采用前面题目提到的 news 函数,在连接主子表的时候,可以将子表直接聚合,能省去复制主表字段等计算过程。
计算代码:
A |
B |
|
1 |
=now() |
|
2 |
1995-10-01 |
3 |
3 |
=elapse@m(A2,B2) |
|
4 |
=file("orders.ctx").open().cursor@m(O_ORDERKEY,O_ORDERPRIORITY;O_ORDERDATE>=A2 && O_ORDERDATE<A3) |
|
5 |
=file("lineitem.ctx").open().news@r(A4,O_ORDERPRIORITY;L_COMMITDATE<L_RECEIPTDATE) |
|
6 |
=A5.groups(O_ORDERPRIORITY;count(1):order_count) |
|
7 |
=interval@ms(A1,now()) |
A5 中 news 函数加上 @r 选项,表示以主表 orders 为准,不带 r 选项是默认是后一个表为准。以主表为准,子表就要先做聚合计算再连接。
测试结果:
测试项目 |
执行时间(秒) |
先聚合后归并 |
13 |
连接时直接聚合 |
7 |
4. 数据变换
数据变换采用前面题目提到的枚举型字符串字段数字化、日期整数化手段。
Orders 转换代码:
A |
|
1 |
=file("orders.ctx").open().cursor(O_ORDERPRIORITY) |
2 |
=A1.id(O_ORDERPRIORITY).sort() |
3 |
=file("o_orderpriority.btx").export@b(A2) |
4 |
=file("orders.ctx").open().cursor() |
5 |
=A4.run(O_ORDERPRIORITY=A2.pos@b(O_ORDERPRIORITY),O_ORDERDATE=days@o(O_ORDERDATE)) |
6 |
=file("orders_4.ctx").create(#O_ORDERKEY,O_CUSTKEY,O_ORDERSTATUS,O_TOTALPRICE,O_ORDERDATE,O_ORDERPRIORITY,O_CLERK,O_SHIPPRIORITY,O_COMMENT) |
7 |
>A6.append(A5) |
Lineitem 转换代码:
A |
|
1 |
=file("lineitem.ctx").open().cursor() |
2 |
=A1.run(L_COMMITDATE=days@o(L_COMMITDATE),L_RECEIPTDATE=days@o(L_RECEIPTDATE)) |
3 |
=file("lineitem_4.ctx").create@py(#L_ORDERKEY,#L_LINENUMBER,L_PARTKEY,L_SUPPKEY,L_QUANTITY,L_EXTENDEDPRICE,L_DISCOUNT,L_TAX,L_RETURNFLAG,L_LINESTATUS,L_SHIPDATE,L_COMMITDATE,L_RECEIPTDATE,L_SHIPINSTRUCT,L_SHIPMODE, L_COMMENT) |
4 |
>A3.append(A2) |
计算代码:
A |
B |
|
1 |
=now() |
|
2 |
1995-10-01 |
3 |
3 |
>o_orderpriority=file("o_orderpriority.btx").import@b().(_1) |
|
4 |
=days@o(elapse@m(A2,B2)) |
=days@o(A2) |
5 |
=file("orders_4.ctx").open().cursor@m(O_ORDERKEY,O_ORDERPRIORITY;O_ORDERDATE>=B4 && O_ORDERDATE<A4) |
|
6 |
=file("lineitem_4.ctx").open().news@r(A5,O_ORDERPRIORITY;L_COMMITDATE<L_RECEIPTDATE) |
|
7 |
=A6.groups(O_ORDERPRIORITY;count(1):order_count) |
|
8 |
=A7.run(O_ORDERPRIORITY=o_orderpriority(O_ORDERPRIORITY)) |
|
9 |
=interval@ms(A1,now()) |
测试结果:
测试项目 |
执行时间(秒) |
先聚合后归并 |
13 |
连接时直接聚合 |
7 |
数据变换 |
6 |
5. 列式计算
计算代码:
A |
B |
|
1 |
=now() |
|
2 |
1995-10-01 |
3 |
3 |
>o_orderpriority=file("o_orderpriority.btx").import@b().(_1) |
|
4 |
=days@o(elapse@m(A2,B2)) |
=days@o(A2) |
5 |
=file("orders_4.ctx").open().cursor@mv(O_ORDERKEY,O_ORDERPRIORITY;O_ORDERDATE>=B4 && O_ORDERDATE<A4) |
|
6 |
=file("lineitem_4.ctx").open().news@r(A5,O_ORDERPRIORITY;L_COMMITDATE<L_RECEIPTDATE) |
|
7 |
=A6.groups(O_ORDERPRIORITY;count(1):order_count) |
|
8 |
=A7.new(o_orderpriority(O_ORDERPRIORITY):O_ORDERPRIORITY,order_count) |
|
9 |
=interval@ms(A1,now()) |
A10 中要将整数化的 O_ORDERPRIORITY 再转回字符串,前面常规的做法是用 run 函数重设 O_ORDERPRIORITY 的值,但列式中不能改变列的数据类型,所以这里要用 new。
测试结果:
测试项目 |
执行时间(秒) |
先聚合后归并 |
13 |
连接时直接聚合 |
7 |
数据变换 |
6 |
列式计算 |
2 |