使用集算器生成本地文件时遇到的一些问题
服务器上集算器生成本地文件存放位置是哪儿?磁盘还是内存?
另外服务器上集算器生成本地文件时占用 CPU 过高,2 千万数据量,5G 的文件执行了 15 分钟左右,CPU 一直在 20,30 左右,会突然飙升到 90 多,持续 5 秒左右,15 分钟内飙升了 2 次,这个是什么问题导致的?
以及生成本地文件时生成了 6 个临时文件,这些临时文件在本地存储完成以后会自动删除,为什么会生成临时文件呢?这些临时文件是用来做什么的?
临时文件生成时,明细 CPU 过高,这两者有什么联系?
集算器脚本,内网,只能拍照了,画质比较差,抱歉!
请贴一下脚本内容
上方内容里已发,是从 hive 库取数,排序后存入本地文件
大排序就是高内存高 CPU 消耗,大数据时还要写临时文件,这个现象不奇怪。参考 【性能优化】4.6 [遍历技术] 分组汇总
你可以让 HIVE 去排序,SQL 里多写个 ORDER BY 试试,这边就没有临时文件了。但哪边排得快就搞不清了,HIVE 通常是集群,可能会快一点吧。
好的,我去试试,麻烦蒋总了,另外,服务器上集算器本地文件存放位置呢?是内存还是磁盘?
现在的执行时间是可以接受的,主要是项目是接手的一半项目,以前的集算器脚本执行时间太接近,有并行导致 CPU 过百警告了,我试试在数据库排序吧,麻烦您了
如果文件函数给定的目录是相对目录,则会相对于配置中的主目录