从 TPCH 测试学习性能优化技巧之 Q15

一、     查询要求

Q15语句查询获得某段时间内为总收入贡献最多的供货商(排名第一)的信息。可用以决定对哪些头等供货商给予奖励、给予更多订单、给予特别认证、给予鼓舞等激励。

Q15语句的特点是:带有分组、排序、聚集、聚集子查询操作并存的普通表与视图的连接操作。

 

二、     Oracle执行

Oracle编写的查询SQL语句如下:

create view revenue (supplier_no, total_revenue) as

         select

                   l_suppkey,

                   sum(l_extendedprice * (1 - l_discount))

         from

                   lineitem

         where

                   l_shipdate >= date '1995-04-01'

                   and l_shipdate < date '1995-04-01' + interval '3' month

         group by

                   l_suppkey;

 

select  /*+ parallel(n) */

         s_suppkey,

         s_name,

         s_address,

         s_phone,

         total_revenue

from

         supplier,

         revenue

where

         s_suppkey = supplier_no

         and total_revenue = (

                   select

                            max(total_revenue)

                   from

                            revenue

         )

order by

         s_suppkey;

 

drop view revenue;

其中/*+ parallel(n) */ Oracle的并行查询语法,n是并行数。

脚本执行时间,单位:秒

并行数

1

2

4

8

12

Oracle

361

276

218

170

155

 

三、     SPL优化

这次查询分为两个阶段,先计算出视图revenue,然后再找出revenuetotal_revenue达到最大值的记录。前者是个常规的分组汇总,利用并行和列存提高性能。后者对于SQL来讲只能写成子查询,这就需要进行两次遍历。因为SQL没有引用和集合数据类型,不能直接返回最大值所在记录。而SPL提供了这样的语法,即可以返回最大值本身,也可以返回最大值所在记录,一次遍历就可以计算出来。

 

SPL脚本如下:


A

1

=now()

2

1995-4-1

3

=elapse@m(A2,3)

4

=file("lineitem.ctx").open().cursor@m(L_SUPPKEY,L_EXTENDEDPRICE,L_DISCOUNT;L_SHIPDATE>=A2   &&L_SHIPDATE< A3)

5

=A4.groups@n(L_SUPPKEY:supplier_no;sum(L_EXTENDEDPRICE*(1-L_DISCOUNT)):total_revenue)

6

=A5.maxp@a(total_revenue)

7

=file("supplier.ctx").open()

8

=A6.joinx@q(supplier_no,A7:S_SUPPKEY,S_NAME,S_ADDRESS,S_PHONE).fetch()

9

return interval@ms(A1,now())

A5计算出视图revenueA6maxp@a一次遍历即返回total_revenue最大的那些记录,完成这个运算后再去到supplier表中查出其它字段,减少计算量。

 

脚本执行时间,单位:秒

并行数

1

2

4

8

12

Oracle

361

276

218

170

155

SPL组表

99

52

29

20

18