求助: 针对文件夹的增量更新

大佬们,下午好!

关注到最近集算器更新了外部库 CDC,Change Data Capture,针对某些数据库的变更数据捕获,这个功能非常好👍 👍 ,当然我对数据的使用还没到这个层次级别,数据库 CDC 暂时用不上。让我联想到的是有没有针对本地文件夹中的文件实施的增量更新功能或者实现方法?

比如,合并文件夹中的文件到一个汇总文件,每个期间(每周,每月或者每一段时间)都会有文件进来,每一个期末都要根据汇总表做一些统计分析,出一些报表,这是常规常见的操作。汇总不是问题,问题是每一次做汇总时都是对文件夹中所有文件的全量更新,文件数量少的时候全量解析也不是问题,但随着文件的增多,效率会越来越低。而目前常见的实现手段 VBA 或者 Power Query 或者是 Pandas 似乎都没有对本地文件夹的增量更新策略,微软的 PowerQuery 肯定没有,每一次都是全量刷新,但其 PBID Pro 付费版有针对数据模型的增量更新,不适用我所描述的场景。

我琢磨了一下,用 spl 粗略写了一个只处理文件夹中新增文件的脚本,大概意思是这样的,文件夹中会有一个 txt 文件用于记录处理过的文件,有一个集文件用于汇总,然后每一次执行时,用 directory 获取的所有文件跟 txt 文件做差集,差集不为空时说明有新增的文件,处理这部分文件后追加到集文件中即可,如下:

imagepng

这样子写感觉很空洞,还是会有很多问题出现。

论坛中有存储相关的文章,但都是从数据库取数,取数时会有日期时间相关的字段进行筛选,跟此处描述的文件夹增量更新还是有所不同,所以恳请大佬们得闲时看看,有没有较为妥善的增量更新实现方法,或者干脆能不能实现针对本地文件夹的增量更新功能😄

谢谢!🙏 🙏