集算器的使用疑惑

我理解集算器的使用思路是,数据的过滤查询通过 sql 语句实现,但是分组,求和,统计等此类的函数在集算器重实现;但是如果一个表的数据量上亿,过滤万后有 500 万,那么这 500 万的数据我们要想拿到集算器处理第一会导致堆内存溢出,第二会导致数据传输过慢; 那么大数据量的情况下如何解决上面的问题呢?