一句话计算出 TopN 的增长情况
比如,一年中污染最严重三天的 PM2.5 涨幅,了解这个涨幅,就能观察出严重污染是突然出现的,还是逐渐积累起来的。用 SQL 语句找出污染最严重的三天,不算难:
select top 3 * from T order by pm25 desc
但后面的步骤比较麻烦,要找到这三天的前一天,还要和前一天的数值做计算,如果不是 SQL 高手,还真不能随手把这个 SQL 写正确。
如果用集算器 SPL 语言描述这个计算过程,就比较清晰,从数据库得到原始数据:
>T=connect(”mysqlDB”).query(“select * from T”)
然后一行代码搞定整个计算需求:
>t3=T.ptop(-3, pm25),t3=t3.run(~=T(~).pm25/T(~-1).pm25-1)
这主要得益于 SPL 语言支持有序集合计算,容易得到数据在集合中的位置,也容易通过相对 / 绝对位置反查数据。
SPL在做有序集合计算时,对 SQL 里的 TopN 进行了变种,可以取 TopN 的值 / 记录 / 记录在集合中的位置,以应对更广泛的计算需求;可以应用到分组子集,增强分组后续操作的能力,参考《TopN 及变种》
当数据不在数据库里时,SPL 加载数据仍然方便:
=file(“d:/t.csv”).import(;,",")
SPL能很方便地嵌入到JAVA应用,可参考《Java 如何调用 SPL 脚本》。
具体使用方法可参考 《如何使用集算器》。