"Q1 运行环境 esProc 目前是纯 Java 软件，只要有 JDK1.8 及以上版本的 JVM 环境的任何操作系统都可以运行，包括常见的 VM 和 Container。 esProc 正常 .."

279400248
乾学院 50 号会员
1,303 浏览 • 3 年前

SPL 架构问答

计算＆AI

Q1 运行环境

esProc 目前是纯 Java 软件，只要有 JDK1.8 及以上版本的 JVM 环境的任何操作系统都可以运行，包括常见的 VM 和 Container。

esProc 正常安装后占用空间不到 1G，但绝大多数都是引用的第三方外部数据源驱动包。其核心包不足 15M，甚至可以在 Android 上运行。

除 JVM 外，esProc 对运行环境没有其它硬性要求。对硬盘和内存的容量要求和计算任务相关，不同计算任务相差很大。执行同样计算任务时，esProc 需要的硬件资源通常小于传统数据库（特别是针对分布式数据库时会远小于）。加大内存、选用更高主频和核数的 CPU 以及使用 SSD 通常对提升计算性能都有提升作用。

Q2 数据存储与交换

esProc 没有传统数据仓库中“库“的概念，没有元数据概念，不对某个主题的数据进行统一管理。对 esProc 来讲，数据没有“库内”和“库外”的区分，也没有明确的“入库”和“出库”的动作。

任何可访问到的数据源都可以看作 esProc 的数据，并可被直接计算。计算前不需要先“入库”，计算后也可以用接口写出目标数据源中，不需要刻意“出库”。

esProc 对常见的数据源都封装了访问接口，如各种关系数据库（使用 JDBC）、MongoDB、HBase、HDFS、Cassandra、ElasticSearch、Kafka、HTTP/Restful、…，甚至 SalesForces、SAP BW、…。

各种数据源在逻辑上地位基本相同，不同之处仅仅在于访问接口以及不同接口表现出来的性能，这些接口是数据源厂商提供的，esProc 无法干预其功能和性能。

esProc 设计了特殊格式的文件来存储数据以获得更多的功能和更好的性能，这些数据文件存放在文件系统中，QDBsae 在技术上并不占有这些数据文件。esProc 已经将文件格式公开（访问代码开源），可以被任何能访问到这些数据文件的应用程序按照公开规范（或基于开源代码）读写，当然更方便的是直接使用 SPL 语写。

从这样意义上讲，esProc 与外部的数据交换没有“入库”“出库”的动作，但可能会有“转换”的动作，即把外部数据转转换成 esProc 格式的文件以获得更多功能和更好性能，也可以把 esProc 格式的文件转换成外部数据供其它应用继续使用。这些转换工作都可以使用 SPL 完成。

Q3 可处理数据类型

esProc 擅长的数据包括常规结构化数据、多层结构化数据（json/xml 等）、以及字符串文本数据和矩阵向量等数学数据。esProc 不擅长处理音频图像视频等数据。

特别地，esProc 对 json,xml 等多层结构化数据有强大的支持能力，远远超过传统数据库。所以 esProc 可以很好地和 mongodb 以及 kafka 等类 json 数据源配合，也能方便地和 HTTP/Restful 以及微服务交换数据并提供计算服务。

esProc 还能方便地计算 Excel 文件中的数据，但不擅长处理 Excel 的格式。

Q4 框架集成与流式计算

esProc 可以像传统数据库一样运行成独立服务进程，对外提供了标准的 JDBC 驱动和 HTTP 服务供应用程序调用。Java 应用程序可以通过 JDBC 发出 SPL 语句就可以执行，调用 esProc 上的脚本代码相当于调用关系数据库中的存储过程。非 Java 应用程序可以使用 HTTP/Restful 机制访问 esProc 提供的计算服务。

对于 Java 开发的应用程序，esProc 还提供了完全嵌入的方式，即在 JDBC 驱动中封装了所有计算功能，和主应用程序在同一进程内运行，不依赖于外部的独立服务进程。

因为 esProc 是纯 Java 软件，也可以嵌入式运行，所以可以完全无缝地集成进各种 Java 框架和应用服务器中，比如 Spring,Tomcat,…，可以被这些框架调度和运维，对于这些框架而言，esProc 的逻辑地位和用户写的 Java 应用程序完全相同。

需要指出的是，对于计算型框架（比如 Spark），虽然 esProc 能被无缝集成，但并没有实际意义。esProc 要求把数据转换成 SPL 特有的数据对象才能实施计算，不仅转换消耗时间，而且原计算框架中的数据对象都将失去意义，两类数据对象的优点不能融合。这些计算框架的关键点主要就是其数据对象（比如 Spark 的 RDD），如果不能继续使用，则计算框架本身也将失去意义。esProc 的计算能力远远超过常见的计算框架，也没有必要再使用这些框架。

特别地，对于流计算框架（比如 Flink），esProc 即使能集成也不能发挥作用。esProc 独立服务过多次流式计算案式，完全不需要流计算框架的支持，完成同样计算量消耗的资源通常会比这些流计算框架低一个数量级，而且功能更丰富。

Q5 功能扩展

esProc 是 Java 写的软件，提供了接口调用 Java 写的静态函数，这样可以扩充 esProc 的功能。esProc 也开放了自定义函数的接口，应用程序员可以用 Java 编写新的函数挂载到 esProc 中，使用就可以在 SPL 中使用。

Q6 弹性计算和计算可靠

esProc 支持分布式计算，可以多节点配合工作，但实际应用中很少用到，因为除高并发场景外，绝大多数任务的数据量和响应期望，esProc 都可以用单机实现。

esProc 即将发布的云版本（可支持私有化部署）将支持自动的弹性计算，请求量变大时会自动启用新的 VM 实施计算，请求量变小时将自动关闭闲置的 VM。

嵌入式的 esProc 仅上主应用程序提供计算服务，不能对外提供服务，也不能负责对外服务的可靠性，这由主应用程序以及框架来负责。

独立进程的 esProc 支持热备机制，JDBC 会在当前仍可工作的服务进程中选择负担较轻的来实施计算。esProc 的分布式计算也提供了容错能力，但 esProc 设计目标不是大规模集群，计算任务过程中发现节点故障后，该任务将被宣布失败。esProc 容错程度仅到发现节点故障时还允许集群能接受新任务，仅适合小规模集群。

esProc 的服务进程目前也没有提供故障后自动恢复的功能，需要管理人员来处理，不过做个监控进程来实现这个自动功能也并不难。

esProc 云版本的弹性计算机制在分配 VM 时会避开当前失效的节点，一定程度地实现高可用性。

Q7 数据安全和可靠

参见 2，esProc 原则上并不管理数据，也不对数据的安全负责。一定程度上可以说，esProc 没有与没必要有安全机制。

持久化数据的安全性原则上数据源本身负责。对于 esProc 格式的数据文件，很多文件系统或 VM 都提供了完善的安全机制（访问控制、加密等），可以直接利用。esProc 的云版本也支持从 S3 等对象存储服务上获取数据再计算，也可以利用它们的安全机制。

嵌入式的 QDBse 和主 Java 应用是同一个进程，仅向主程序提供计算服务，没有外部服务接口，不存在安全和权限问题。独立服务进程的 esProc 使用标准的 TCP/IP 和 HTTP 通信，可以被专业的网络安全产品监控和管理，具体安全措施将由这些产品负责。

esProc 专注于计算，对持久化存储的可靠性也不负责，这些方面同样的专业的技术和产品，esProc 尽量使用标准的规范，从而可以和这些技术和产品配合工作。比如可以将数据持久化到高可靠的对象存储上，esProc 实现了这些存储方案的接口，可以访问这些数据源实施计算。

esProc 是专业的计算技术，不拥有专业的安全能力，esProc 的理念是和其它专业技术配合。

Q8 SQL 兼容性

esProc 不是 SQL 体系的计算引擎，目前仅支持不涉及大数据量的简单 SQL，且不保证性能。在大数据需求场景下，可以认为 esProc 不支持 SQL，当然也不会和任何 SQL 存储过程兼容。

esProc 未来会发展出支持 SQL 的双引擎，但仍然很难保证高性能和大数据，仅仅是让存量的 SQL 代码易于迁移到 esProc。