查找文本记录在另一个文本中是否出现
【问题】
Oh man. 15k line text file, a for loop grepping for instances of each line in a second file of millions of lines and returning count. at 5-6 seconds per line.
Should have run this in a screen…
【回答】
grep 命令的性能较低,如果其中一个文件较大,花费的时间肯定会很长,这种情况下可以试试集算器。比如 file1.txt 很大,无法放入内存,file2.txt 较小,可以放入内存,如果要查出在 file1.txt 但不在 file2.txt 中的行数据,可以用下面的 SPL 代码:
A |
|
1 |
=file("e:\\file1.txt").cursor() |
2 |
=file("e:\\file2.txt").import().keys(_1).index() |
3 |
=A1.select(!A2.find(~._1)) |
4 |
=file("E:\\result.txt").export(A3) |
几百万行的数据其实并不大,应该可以放入内存计算,集算器支持丰富的内存计算函数,比如关联计算、多文件查询、归并查找,可以轻松实现复杂的算法逻辑。想要了解更多关于集算器的使用,可参考集算器教程做进一步学习。