"[链接]【问题】 I how to make PHP script for large data scraping [链接]【回答】用 php 读取并计算大文件，需要用函数 fseek 设 .."

ddszm 邯郸
乾学院 14 号会员
1,359 浏览 • 6 年前

如何从大数据文件中取出符合条件的数据

桌面处理

文本(31) 大数据(5)

【问题】

I how to make PHP script for large data scraping

用 php 读取并计算大文件，需要用函数 fseek 设置文件指针，用 fread 函数每次将一段数据读入内存，然后循环处理。读取的过程还不算复杂，但计算的步骤就很难写了，比如：多条件查询、汇总分组、动态条件。对于大文件，往往还需要用多线程并行计算来提高性能，代码会更难实现。

这种情况下可以试试 SPL 来实现，其相较于 php 代码更加简洁，效率也不错。比如：从大文件 emplyee.txt 中查询出 1981 年 1 月 1 日（含）之后出生的女员工，代码如下：

	A
1	=file("D:/employee.txt").cursor@t()
2	=A1.select(BIRTHDAY>=date(1981,1,1) && GENDER=="F")
3	=A2.fetch()

如果条件是不定的，可以将 A2 的代码改为：A1.select(${where})，这样就可以将查询条件写在参数里，实现动态查询。

如果查询结果较多，内存放不下，还可以将 A3 改为：file(“D:/result.txt”).export(A2)，这可以将计算结果直接输出到文件中。

如果想提高性能，还可以使用多线程并行查询，具体内容可以参考集算器教程并行计算小节

文本(31) 大数据(5)