"在数据处理的时候,有 阿里的数据中台 Dataworks 及星环,数梦工厂 等数据,中台产品。这些产品对数据抽取,数据质量,数据校验等 构建数据仓库过程中,有大量的 SQL 执行过程。 如果要 .."
在数据处理的时候,有 阿里的数据中台 Dataworks 及星环,数梦工厂 等数据,中台产品。这些产品对数据抽取,数据质量,数据校验等 构建数据仓库过程中,有大量的 SQL 执行过程。
如果要代替这些 SQL 语句。SPL 有没有 与这些数据中台对接的案例 或者在这些数据中台产品中,SPL 可以在某些步骤 代替数据中台的原有的步骤 以提升效率?
或者说,在数据处理的时候,一般都会引入数据中台。SPL 在数据仓库建设过程中,一般处于什么层次?
这个问题挺复杂的。
初期引入 SPL 时,会在数据源和应用之间。这时候通常只能解决开发效率以及方便热切换(从而降低运维成本),因为无法替换数据源。SPL 本身是个数据中台(但这词的定义比较模糊)的实现技术,或者叫微服务更好(论坛上有帖子讲 开源 SPL 令微服务真地”微“起来 )。这些历史的 SQL,如果没有性能问题(通常涉及数据量也比较小),只是难写难维护,可以逐步用 SPL 替代。
进一步,就会替换数据源了,这些数仓里的数据也用 SPL 的 ctx 文件格式存储,直接放到 NFS 或 S3 这种远程存储上去,这样就能跑出高性能了。但同时,目前这些数仓之类的东西也没有存在的必要了,SPL 能基本替代了这些东西的功能,但还需要外围补些管理功能。
这个问题并不简单,可能需要线下根据具体场景来沟通,论坛上几个帖子说不清了。
或者说,在数据处理的时候,一般都会引入数据中台。SPL 在数据仓库建设过程中,一般处于什么层次?
这个问题挺复杂的。
初期引入 SPL 时,会在数据源和应用之间。这时候通常只能解决开发效率以及方便热切换(从而降低运维成本),因为无法替换数据源。SPL 本身是个数据中台(但这词的定义比较模糊)的实现技术,或者叫微服务更好(论坛上有帖子讲 开源 SPL 令微服务真地”微“起来 )。这些历史的 SQL,如果没有性能问题(通常涉及数据量也比较小),只是难写难维护,可以逐步用 SPL 替代。
进一步,就会替换数据源了,这些数仓里的数据也用 SPL 的 ctx 文件格式存储,直接放到 NFS 或 S3 这种远程存储上去,这样就能跑出高性能了。但同时,目前这些数仓之类的东西也没有存在的必要了,SPL 能基本替代了这些东西的功能,但还需要外围补些管理功能。
这个问题并不简单,可能需要线下根据具体场景来沟通,论坛上几个帖子说不清了。