同类数据连续时使用同类相邻行计算

举例

文件book1.xlsx记录用户的事件发生时间,数据已按USER IDDATE列排序,部分数据如下:

..

现在要计算事件真假列isTrue,规则是:同一个USER ID内,第1起事件一定为真,从第2起事件开始,如果与上一真事件的间隔大于等于10天,则该事件为真,其他事件均为假。结果应当如下:

..

编写SPL脚本:


A

1

=T("e:/work/book1.xlsx")

2

=A1.derive(if('USER   ID'!='USER ID'[-1],(t=DATE,1),if(DATE-t>=10,(t=DATE,1),0)):isTrue)

3

=T("e:/work/book2.xlsx",A2)

A1   读入文件book1.xlsx中数据

A2   新增一列isTrue并计算它的值:如果本行的USER ID与上一行不同,则说明当前行是组内第1起事件,此时返回值1,同时临时变量t=本行DATE。如果本行的USER ID与上一行相同,则进入组内计算,用临时变量和本行的日期计算间隔,大于等于10时返回值1,同时修改临时变量t=本行DATE'USER ID'[-1]表示上一行的USER ID值。

A3   A2的结果保存到文件book2.xlsx