"Spark 是最流行的分布式数据计算工具，在当前大数据分析领域占据主导地位。在这一领域发挥的作用，集算器与 Spark 有不少交集，和 Spark 对比有哪些不同？对于底层使用了不同技术、设 .."

Jerry 北京
乾学院 4 号会员
1 回帖 • 1,240 浏览 • 5 年前

集算器和 Spark 对比

计算＆AI

集算器(456) Spark(2) 产品选型(9) 综述(27)

Spark 是最流行的分布式数据计算工具，在当前大数据分析领域占据主导地位。在这一领域发挥的作用，集算器与 Spark 有不少交集，和 Spark 对比有哪些不同？

对于底层使用了不同技术、设计理念不同的产品，不带偏见、有依据的回答这个对比问题是件不容易的事情，本文尽可能说清两者的对比，如有错误还请斧正。

集算器比 Spark 更小、更轻。集算器的功能相比 Spark 要少，依赖很少的 Jar 包就可以独立工作。

Spark 的内部设计是高级的、不透明的，内部统一采用高级的自动化算法应对外部不同计算目标，很难适应复杂计算或即席查询对算法灵活的需求，计算模型还是基于 Map-Shuffle-Reduce 的拓展。
集算器的内部设计是低级的、透明的，没有高级的自动化调度，基于普通的任务调度，但是能够满足更灵活、复杂、高性能的定制化计算需求。

Spark 是成熟的、覆盖全面的工具，如果你希望建设一个大数据平台，只是需要常规 ETL+SQL 的操作，Spark 是不错的选择，如果已经熟悉 Scala，那会更好。

集算器是嵌入式计算组件，便于集成到已有的应用，通过灵活应用它的并行、缓存、列存等技术，就能大幅提升性能，特别适合非 SQL 式的过程计算。定制化的底层计算不仅提高了性能，还节约计算资源，在单机应用往往就能取得很好的表现。

集算器(456) Spark(2) 产品选型(9) 综述(27)

目录