"数据量大或者数据库繁忙都会导致数据库查询变慢，这时将数据用 esProc 导出存成文件再计算可以大幅提升性能。数据与用例 MySQL 数据库有 orders_30m 表存储着历年的订单数据， .."

lisongbo
乾学院 29 号会员
1 回帖 • 89 浏览 • 5 个月前

如何用 esProc 将数据库表转储提速查询

计算＆AI

数据量大或者数据库繁忙都会导致数据库查询变慢，这时将数据用 esProc 导出存成文件再计算可以大幅提升性能。

数据与用例

MySQL 数据库有 orders_30m 表存储着历年的订单数据，表结构如下：

数据样例：

1	3001	2023-01-05	701	Smartphone Z	1	699.99	699.99	Credit Card	888 Eighth St, Charlotte, NC	Delivered
2	3002	2023-02-10	702	Smart Scale	1	49.99	49.99	PayPal	999 Ninth Ave, Indianapolis, IN	Delivered
3	3003	2023-03-15	703	Laptop Air	1	1099.99	1099.99	Credit Card	101 Tenth Rd, Seattle, WA	Delivered

数据量：3 千万行

两个样例查询：

1. 按支付方式和订单状态分析 2022 年 -2023 年销售额

SELECT 
    payment_method,
    order_status,
    COUNT(*) AS order_count,
    SUM(total_amount) AS total_sales,
    AVG(total_amount) AS average_order_value,
    MAX(order_date) AS latest_order_date
FROM 
    orders
WHERE 
    order_date BETWEEN '2022-01-01' AND '2023-12-31'
    AND quantity > 1  
    AND total_amount < 1000  
GROUP BY 
    payment_method, 
    order_status;

查询时间：17.69s

2. 每类产品销售最多的三笔订单

WITH ranked_orders AS (
    SELECT 
        product_name,
        order_id,
        customer_id,
        order_date,
        total_amount,
        DENSE_RANK() OVER (
            PARTITION BY product_name
            ORDER BY total_amount DESC
        ) AS amount_rank
    FROM 
        orders
)
SELECT * FROM ranked_orders
WHERE amount_rank <= 3
ORDER BY product_name, amount_rank;

查询时间：63.22s

现在用 esProc 将数据转储成文件加速查询。

安装 esProc

先通过https://www.esproc.com/download-esproc/ 下载 esProc 标准版。

安装后，配 MySQL 数据库连接。

先把 MySQL JDBC 驱动包放到 [esProc 安装目录]\common\jdbc 目录下（其他数据库类似）。

然后启动 esProc IDE，菜单栏选择 Tool-Connect to Data Source，配置 MySQL 标准 JDBC 连接。

确定后，测试一下连接，点击 Connect，发现刚刚配置的 colddb 数据源变成粉红色证明连接成功。

转储为 BTX

接下来将 orders 表导出转存成二进制行存文件 btx。

	A
1	=connect("colddb")
2	=A1.cursor@x("select * from orders_30m")
3	=file("D:/data/orders_30m.btx").export@b(A2)

生成 btx 很简单，直接导出就可以，因为数据量较大 A2 使用了游标，可以应对任意规模的数据。

按 Ctrl+F9 执行：

btx 文件就生成了：

下面用 btx 跑一下上面第一个计算：按支付方式和订单状态分析 2022 年 -2023 年销售额。

	A
1	=now()
2	>sd=date("2022-01-01"),ed=date("2023-12-31")
3	=file("D:/data/orders_30m.btx").cursor@b(payment_method,order_status,total_amount,order_date,quantity)
4	=A3.select(order_date>=sd && order_date<=ed && quantity > 1 && total_amount < 1000)
5	=A4.groups(payment_method,order_status; count(1):order_count, sum(total_amount):total_sales, avg(total_amount) : average_order_value, max(order_date) : latest_order_date)
6	=output("query cost:"/interval@ms(A1,now())/"ms")

A3 创建文件游标，只读取用到的列，A4 用 select 进行条件过滤，A5 进行分组汇总，代码很简单不过多解释。

运行一下看，结果没问题，时间消耗了5.319 秒，比 MySQL 快了3.3 倍。

转储为 CTX

除了 btx，esProc 还提供了轻量级的列存二进制文件格式 ctx。我们来试一下，将 orders 表转成 ctx：

	A
1	=connect("colddb")
2	=A1.cursor@x("select order_id,customer_id,order_date,product_id,product_name,quantity,unit_price,total_amount,payment_method,shipping_address,order_status,created_at,updated_at from orders_30m")
3	=file("D:/data/orders_30m.ctx").create@y(order_id,customer_id,order_date,product_id,product_name,quantity,unit_price,total_amount,payment_method,shipping_address,order_status,created_at,updated_at)
4	=A3.append(A2)

创建 ctx 时需要先定义结构（A3），与 order 表完全一致就可以了；A4 将数据写入 ctx。

可以看出来，列式的 ctx 的压缩率要远高于行式的 btx。

再做一下上面的计算。

	A
1	=now()
2	>sd=date("2022-01-01"),ed=date("2023-12-31")
3	=file("D:/data/orders.ctx").open().cursor (payment_method,order_status,total_amount,order_date,quantity)
4	=A3.select(order_date>=sd && order_date<=ed && quantity > 1 && total_amount < 1000)
5	=A4.groups(payment_method,order_status; count(1):order_count, sum(total_amount):total_sales, avg(total_amount) : average_order_value, max(order_date) : latest_order_date)
6	=output("query cost:"/interval@ms(A1,now())/"ms")

ctx 使用时需要先 open 再创建 cursor，剩下的代码与 btx 完全一样。

运行时间：3.061 秒，比 btx 要快。

ctx 还有一项游标过滤的优化技巧，把过滤条件附加到游标上，esProc 会先只读出用于计算条件的字段值，如果条件不成立就放弃到下一步，条件成立才再继续读出其它需要的字段并创建这条记录。

	A
1	=now()
2	>sd=date("2022-01-01"),ed=date("2023-12-31")
3	=file("D:/data/orders_30m.ctx").open().cursor (payment_method,order_status,total_amount,order_date;order_date>=sd && order_date<=ed && quantity > 1 && total_amount < 1000)
4	=A3.groups(payment_method,order_status; count(1):order_count, sum(total_amount):total_sales, avg(total_amount) : average_order_value, max(order_date) : latest_order_date)
5	=output("query cost:"/interval@ms(A1,now())/"ms")

把过滤条件放到 A3 的 cursor 上，其他代码基本一样的。

运行时间变成了：2.374 秒。

这里过滤条件用到了 3 个字段，而全部读取也只有 5 个字段，所以性能只提升了 32%，如果字段数相差更多，性能差距会更明显。

并行计算

esProc 还能方便地写出并行代码，btx 和 ctx 都可以，只要配置一下并行数，跟 CPU 核数一致就可以（这里配置了 8 个）。

看一下并行计算 btx 的脚本：

	A
1	=now()
2	>sd=date("2022-01-01"),ed=date("2023-12-31")
3	=file("D:/data/orders_30m.btx").cursor@bm(payment_method,order_status,total_amount,order_date,quantity)
4	=A3.select(order_date>=sd && order_date<=ed && quantity > 1 && total_amount < 1000)
5	=A4.groups(payment_method,order_status; count(1):order_count, sum(total_amount):total_sales, avg(total_amount) : average_order_value, max(order_date) : latest_order_date)
6	=output("query cost:"/interval@ms(A1,now())/"ms")

只需要在 cursor 后加了个@m选项，esProc 就会自动根据配置的并行数并行计算，很方便。

运行时间：1.426 秒。

ctx 也类似：

	A
1	=now()
2	>sd=date("2022-01-01"),ed=date("2023-12-31")
3	=file("D:/data/orders_30m.ctx").open().cursor @m(payment_method,order_status,total_amount,order_date;order_date>=sd && order_date<=ed && quantity > 1 && total_amount < 1000)
4	=A3.groups(payment_method,order_status; count(1):order_count, sum(total_amount):total_sales, avg(total_amount) : average_order_value, max(order_date) : latest_order_date)
5	=output("query cost:"/interval@ms(A1,now())/"ms")

增加 @m 选项，运行时间降到了：0.566 秒。

当然，很多数据库通常也支持并行计算，但 MySQL 这方面似乎不够好，设置了并行参数后，性能也没显著提升。

汇总一下以上测试的执行时间（单位 s）：

	MySQL	BTX	CTX
串行	17.69	5.319	2.374
并行	17.66	1.426	0.566

前面还有一个计算组内 TopN 的用例，这里就不给出详细测试结果了，文件仍会快很多（单线程 63.22/2.075=30.5 倍）。这里仅给出 esProc 的代码实现，来感受其语法的简洁和完善性。

每类产品销售最多的三笔订单：

	A
1	=file("D:/data/orders_30m.ctx").open().cursor(product_name,order_id,customer_id,order_date,total_amount)
2	=A1.groups(product_name;top(-3;total_amount))

esProc 将 TopN 理解成聚合运算，实现变得非常简单。

最后总结一下，esProc 的两种文件都比数据库要快，尤其是 ctx，常规运算也能比数据库快出几倍到十几倍；而稍复杂的 TopN 运算则要快出几十倍，将数据转存成文件的确有优势。不过，文件存储有其特定的适用场景，因为要导出数据，所以更适合计算不变的历史数据，这种场景当然也有很多。如果要处理新数据，就需要用 esProc 的混合运算了，这里不再展开，可以参考官网材料。