"select ps_partkey, sum(ps_supplycost * ps_availqty) as value from partsupp, supplier, nation whe .."

terminator 北京
陈虎。真心想用集算器这样的工具降低程序员们的劳动强度，真心想成为高性能复杂计算、大数据计算编程难题的终结者。
1 回帖 • 499 浏览 • 1 年前

性能优化案例课程 TPCH-Q11

计算＆AI

集算器(535)

select
    ps_partkey,
    sum(ps_supplycost * ps_availqty) as value
from
    partsupp,
    supplier,
    nation
where
    ps_suppkey = s_suppkey
    and s_nationkey = n_nationkey
    and n_name = 'CHINA'
group by
    ps_partkey
having
    sum(ps_supplycost * ps_availqty) > (
        select
            sum(ps_supplycost * ps_availqty) * 0.000001
        from
            partsupp,
            supplier,
            nation
        where
            ps_suppkey = s_suppkey
            and s_nationkey = n_nationkey
            and n_name = 'CHINA'
    )
order by
    value desc;

我们把下面的子查询看成为视图 V：

select
    ps_partkey,
    sum(ps_supplycost * ps_availqty) as value
from
    partsupp,
    supplier,
    nation
where
    ps_suppkey = s_suppkey
    and s_nationkey = n_nationkey
    and n_name = 'CHINA'
group by
ps_partkey

则原主体查询等价于

select
    ps_partkey,
    value
from V
where value>0.000001*(select sum(value) from V)

这个 V 已经是经过分组后的结果集，数量较小，遍历 V 比直接针对 partsupp 遍历的计算量要小很多。

1. 数据存储

Partsupp 表按照主键 ps_partkey 有序存储，可以采用有序分组方法，提高分组汇总计算性能。

其他数据表没有特殊的排序要求，也都按照主键有序存储。

继续使用题目 Q2 中的 partsupp.ctx、supplier.ctx、nation.btx。

将这些表复制到本题的主目录中。

2. 一般实现

	A
1	=now()
2	>name="CHINA"
3	>percent=0.000001
4	=file("nation.btx").import@b().select@1(N_NAME== name).N_NATIONKEY
5	=file("supplier.ctx").open().cursor@m(S_SUPPKEY;S_NATIONKEY==A4).fetch().keys@i(S_SUPPKEY)
6	=file("partsupp.ctx").open().cursor@m(PS_PARTKEY,PS_AVAILQTY,PS_SUPPLYCOST;A5.find(PS_SUPPKEY))
7	=A6.groups@o(PS_PARTKEY;sum(PS_SUPPLYCOST*PS_AVAILQTY):value)
8	=A7.sum(value)*percent
9	=A7.select(value>A8).sort@z(value)
10	=interval@ms(A1,now())

代码中用到了前面讲到过的游标前过滤、多线程并行等优化方法。

partsupp 表是对主键 PS_PARTKEY 有序，这时候针对该字段的分组可以使用有序分组方案，以提高计算 V 的性能。A7 用 groups@o 执行有序分组，相当于计算出视图 V，然后 A8、A9 对 A7 进行两次遍历计算出结果。

测试结果：

测试项目	执行时间（秒）
一般实现	7

3. 数据变换

数据变换要采用前面题目提到的维表主键序号化手段。

可以直接使用以前的题目 Q2 转换的 partsupp_2.ctx、supplier_2.ctx、nation_2.btx、。

将这些表复制到本题的主目录中。

计算代码：

	A	B
1	=now()
2	>name="CHINA"	>percent=0.000001
3	=file("nation_2.btx").import@b(N_NATIONKEY,N_NAME)
4	=A3.(N_NAME== name)
5	=file("supplier_2.ctx").open()	=A5.cursor@m().skip().(false)
6	=file("supplier_2.ctx").open().cursor@m(S_SUPPKEY;A4(S_NATIONKEY)).fetch().(B5(S_SUPPKEY)=true)
7	=file("partsupp_2.ctx").open().cursor@m(PS_PARTKEY,PS_AVAILQTY,PS_SUPPLYCOST;B5(PS_SUPPKEY))
8	=A7.groups@o(PS_PARTKEY;sum(PS_SUPPLYCOST*PS_AVAILQTY):value)
9	=A8.sum(value)*percent
10	=A8.select(value>A9).sort@z(value)
11	=interval@ms(A1,now())

A4、B5 是对位序列。

测试结果：

测试项目	执行时间（秒）
一般实现	7
数据变换	4

4. 列式计算

	A	B
1	=now()
2	>name="CHINA"	>percent=0.000001
3	=file("nation_2.btx").import@b(N_NATIONKEY,N_NAME)
4	=A3.(N_NAME== name)
5	=file("supplier_2.ctx").open()	=A5.cursor@m().skip().(false)
6	=file("supplier_2.ctx").open().cursor@mv(S_SUPPKEY;A4(S_NATIONKEY)).fetch().(B5(S_SUPPKEY)=true)
7	=file("partsupp_2.ctx").open().cursor@mv(PS_PARTKEY,PS_AVAILQTY,PS_SUPPLYCOST;B5(PS_SUPPKEY))
8	=A7.groups@o(PS_PARTKEY;sum(PS_SUPPLYCOST*PS_AVAILQTY):value)
9	=A8.sum(value)*percent
10	=A8.select(value>A9).sort@z(value)
11	=interval@ms(A1,now())

测试结果：

测试项目	执行时间（秒）
一般实现	7
数据变换	4
列式计算	2

集算器(535)