性能优化技巧：前半有序时的排序

一、问题背景与适用场景

在对数据集进行排序运算时，有时会遇到这样一种场景：数据集T已经按字段a有序，而字段b无序，现在我们要将T按a、b排序，我们称之为前半有序(a有序)的排序。此时我们能想到一种优化的排序方法：从T中先取出a值相同的一组记录，再这一组内对b排序。然后再依次取出下一组a值相同的记录，重复这个动作，直到完成T中所有记录的排序。这种方法的好处是不需要对T中所有记录进行大排序，一次只需取出一小组，对内存容量要求大大减低，只需能装下每个小组即可。

遗憾的是SQL并不支持这种优化算法，只能所有记录进行大排序，而SPL提供了对这种算法的支持，下面我们实例测试一下，并与Oracle作对比。

二、测试环境与任务

测试机有两个Intel2670 CPU，主频2.6G，共16核，内存64G，SSD固态硬盘。在此机上安装虚拟机来测试，设置虚拟机为16核、8G内存。

在虚拟机上创建数据表salesman1，共两个字段：area(字符串)、salesman(字符串)，生成数据记录4亿行，按area升序排列，area不同值共2000个，每个area对应salesman为20万个。将此表数据导入Oracle数据库，同时用它生成集算器SPL组表来进行测试。

再建另一张表salesman2作大数据量测试，数据表结构不变，总数据记录20亿行，area值4000个，每个area对应50万个salesman。

测试任务都是要对表按照area、salesman排序。

三、小数据量测试

1. Oracle测试

编写测试SQL如下：

select area, salesman from salesman1 orderby area, salesman

本来只需这一句简单的SQL即可，不过这个排序结果的输出时间却非常长，为了减少输出量，只统计排序过程的用时，我们不输出排序后的全部结果，而只输出中间位置的一行，也就是行号为2亿的那一行，所以SQL语句改写如下：

select area, salesman from (select area, salesman, rownum rn from (select area, salesman from salesman1 orderby area, salesman )) where rn=200000000;

要多说一句，这个查询其实没有什么业务意义，纯粹是为了迫使数据库大排序且避免统计输出时间的。

2. SPL测试

编写SPL脚本如下：

A
1	=now()
2	=file("/home/ctx/salesman1.ctx").open().cursor(area,salesman)
3	=A2.group@qs(area;salesman)
4	=A3.skip(199999999)
5	=A3.fetch(1)
6	=interval@s(A1,now())

group@qs中选项s表示对数据集只排序，不分组；选项q表示数据集对分号前的分组表达式(area)是有序的，请求使用前半有序时的排序方法按分号后的表达式(salesman)排序。

四、大数据量测试

1. Oracle测试

编写测试SQL如下：

select area, salesman from (select area, salesman, rownum rn from (select area, salesman from salesman2 orderby area, salesman )) where rn=1000000000;

输出行号为10亿的一行。

2. SPL测试

编写SPL脚本如下：

A
1	=now()
2	=file("/home/ctx/salesman2.ctx").open().cursor(area,salesman)
3	=A2.group@qs(area;salesman)
4	=A3.skip(999999999)
5	=A3.fetch(1)
6	=interval@s(A1,now())

五、测试结果

测试结果如下，单位(秒)：

数据量	4亿行	20亿行
Oracle	326	2556
SPL	186	1266

从测试结果看，SPL前半有序排序与Oracle的大排序相比，数据量4亿行时，运行时间只有60%，20亿行时只有50%，可见性能提升很多，数据量越大时效果越显著。

更多性能优化技巧，可在底部“阅读原文”中查看

重磅！开源SPL交流群成立了

简单好用的SPL开源啦！

为了给感兴趣的小伙伴们提供一个相互交流的平台，

特地开通了交流群（群完全免费，不广告不卖课）

需要进群的朋友，可长按扫描下方二维码

本文感兴趣的朋友，请转到阅读原文去收藏 ^_^

继续阅读

阅读原文