SPL 轻量级多源混算实践 7 - SQL 移植

应用程序可能要基于不同数据库工作,各种数据库的 SQL 语法大体一致,但仍有些差别,结果就要改造这些 SQL,而这事通常只能手工调整,工作量大还容易出错。

完全自动改造 SQL 几乎是无法做到的,毕竟各种数据库很可能功能就不一样。

不过,梳理一下会发现,大部分问题都是由于 SQL 函数写法不同造成的。

特别是日期和字符串相关的函数,业界没有标准,各个数据库各行其是。比如将字符串 "2020-02-05" 转换成日期,不同数据库有不同的写法。

ORACLE:

select TO_DATE('2020-02-05', 'YYYY-MM-DD') from USER

SQL Server:

select CONVERT(varchar(100), '2020-02-05', 23) from USER

MySQL:

select DATE_FORMAT('2020-02-05','%Y-%m-%d') from USER

如果希望应用在不同的数据库之间切换,就需要改写 SQL 语句。

SPL 方案

SPL 针对这个场景提供了 SQL 转换功能,可以将某种标准 SQL 转换成不同数据库对应的语句,从而完成数据库切换时 SQL 无缝移植。

..

sql.sqltranslate(dbtype) 函数前面的 sql 是需要翻译的 SQL 语句,参数 dbtype 是数据库类型。函数要在 SPL 的简单 SQL 中定义过,未定义的不会被翻译。已定义的函数列表和数据库类型可查阅 sqltranslate 函数帮助:https://d.raqsoft.com.cn:6443/esproc/func/sqltranslate.html

IDE 内使用

我们先在 SPL 的 IDE 内尝试一下,将

SELECT EID, NAME, BIRTHDAY, ADDDAYS(BIRTHDAY,10) DAY10 FROM EMP

转换成不同数据库对应的语法。

..

可以看到 ADDDAYS 这个函数被翻译成各个数据库不同的语法,实现了 SQL 在不同数据库之间移植。

我们再看一些例子。

月份加 10

SELECT EID, NAME, BIRTHDAY, ADDMONTHS(BIRTHDAY,10) DAY10 FROM EMP

通过 sqltranslate 翻译成不同数据库的语法:

ORACLE:

SELECT EID, NAME, BIRTHDAY, BIRTHDAY+NUMTOYMINTERVAL(10,'MONTH') DAY10 FROM EMP

SQLSVR:

SELECT EID, NAME, BIRTHDAY, DATEADD(MM,10,BIRTHDAY) DAY10 FROM EMP

DB2:

SELECT EID, NAME, BIRTHDAY, BIRTHDAY+10 MONTHS DAY10 FROM EMP

MYSQL:

SELECT EID, NAME, BIRTHDAY, BIRTHDAY+INTERVAL 10 MONTH DAY10 FROM EMP

POSTGRES:

SELECT EID, NAME, BIRTHDAY, BIRTHDAY+interval '10 months' DAY10 FROM EMP

TERADATA:

SELECT EID, NAME, BIRTHDAY, ADD_MONTHS(BIRTHDAY, 10) DAY10 FROM EMP

ADDMONTHS 函数在不同数据库的实现方式差异很大,SQLServer 有 DATEADD 函数,而 MySQL 和 PG 则直接加,Oracle 则采用两者相结合的方式实现。

求季度

SELECT EID,AREA,QUARTER(ORDERDATE) QUA, AMOUNT FROM ORDERS

转换后:

ORACLE:

SELECT EID,AREA,FLOOR((EXTRACT(MONTH FROM ORDERDATE)+2)/3) QUA, AMOUNT FROM ORDERS

SQLSVR:

SELECT EID,AREA,DATEPART(QQ,ORDERDATE) QUA, AMOUNT FROM ORDERS

POSTGRES:

SELECT EID,AREA,EXTRACT(QUARTER FROM ORDERDATE) QUA, AMOUNT FROM ORDERS

TERADATA:

SELECT EID,AREA,TD_QUARTER_OF_YEAR(ORDERDATE) QUA, AMOUNT FROM ORDERS

求季度的函数,不同数据库虽然都有函数实现,但函数名称和参数的定义又有很大差异。

类型转换

SELECT EID, NAME, DATETOCHAR(BIRTHDAY) FROM EMP

转换后:

ORACLE:

SELECT EID, NAME, TO_CHAR(BIRTHDAY,'YYYY-MM-DD HH:MI:SS') FROM EMP

SQLSVR:

SELECT EID, NAME, CONVERT(CHAR,BIRTHDAY,120) FROM EMP

DB2:

SELECT EID, NAME, TO_CHAR(BIRTHDAY,'YYYY-MM-DD HH:MI:SS') FROM EMP

MYSQL:

SELECT EID, NAME, DATE_FORMAT(BIRTHDAY, '%Y-%m-%d %H:%i:%S) FROM EMP

POSTGRES:

SELECT EID, NAME, TO_CHAR(BIRTHDAY,'YYYY-MM-DD HH:MI:SS') FROM EMP

TERADATA:

SELECT EID, NAME, TO_CHAR(BIRTHDAY,'YYYY-MM-DD HH:MI:SS') FROM EMP

类型转换函数各个数据库的函数名称和格式化形式有较大差异。

这些五花八门的差异都可以用 SPL 的 sqltranslate 来转换。

函数定义与扩展

SPL 支持的数据库类型和函数定义在发布包 esproc-bin.jar 中的字典文件 /com/scudata/dm/sql/function.xml 中。

<?xml version="1.0" encoding="utf-8"?>
<STANDARD>
  <FUNCTIONS type="FixParam">
    <FUNCTION name="ADDDAYS" paramcount="2" value="">
      <INFO dbtype="ORACLE" value="?1+NUMTODSINTERVAL(?2,'DAY')"/>
      <INFO dbtype="SQLSVR" value="DATEADD(DD,?2,?1)"/>
      <INFO dbtype="DB2" value="?1+?2 DAYS"/>
      <INFO dbtype="MYSQL" value="?1+INTERVAL ?2 DAY"/>
      <INFO dbtype="HSQL" value="DATEADD('dd', ?2, ?1)"/>
      <INFO dbtype="TERADATA" value="?1+CAST(?2 AS INTERVAL DAY)"/>
      <INFO dbtype="POSTGRES" value="?1+interval '?2 days'"/>
      <INFO dbtype="ESPROC" value="elapse(?1,?2)"/>
    </FUNCTION>
  </FUNCTIONS>
</STANDARD>

FUNCTIONS 节点代表一个函数组,type 是函数组类型,FixParam 表示参数个数固定的函数组。FUNCTION 节点代表一个简单 SQL 函数,name 是函数名,paramcount 是参数个数,value 是翻译本函数时的默认值,空串时表示无需翻译。INFO 节点代表一种数据库,dbtype 是数据库名称,空串时表示是 SPL 中的简单 SQL,value 是翻译到本数据库时的对应值。value 中的? 或?1 代表函数的第 1 个参数值,?2 代表函数的第 2 个参数值,依此类推。当 INFO 中的 value 值为空串时,则使用父节点 FUNCTION 的 value 值。

在翻译时,如果 FUNCTION 节点下没有指定数据库的 INFO 节点定义,则此函数保持原样,不会被翻译。

SPL 在 funtion.xml 中定义了很多函数,但并不是所有。实际使用中可能碰到新的,可以自行增加。

比如我们要增加函数来计算两个日期的相差天数,我们就可以增加 FUNCTION 节点,定义 DATEDIFF 函数名,然后在 INFO 节点分别配置不同数据库的写法。

<FUNCTION name="DATEDIFF" paramcount="2" value="">
     <INFO dbtype="ORACLE" value="?1-?2"/>
     <INFO dbtype="SQLSVR" value="DATEDIFF(day,?1,?2)"/>
     <INFO dbtype="MYSQL" value="DATEDIFF(?1,?2)"/>
     <INFO dbtype="POSTGRES" value="?1-?2"/>
     <INFO dbtype="ESPROC" value="interval(?2,?1)"/>
</FUNCTION>

类似地,如果还要增加对其他数据库的支持,直接增加 INFO 节点信息,把新数据库配置上就可以。比如这里要增加对 SQLite 的支持,来完成日期相差天数的翻译。

<FUNCTION name="DATEDIFF" paramcount="2" value="">
     <INFO dbtype="ORACLE" value="?1-?2"/>
     <INFO dbtype="SQLSVR" value="DATEDIFF(day,?1,?2)"/>
     <INFO dbtype="MYSQL" value="DATEDIFF(?1,?2)"/>
     <INFO dbtype="POSTGRES" value="?1-?2"/>
     <INFO dbtype="ESPROC" value="interval(?2,?1)"/>
     <INFO dbtype="SQLite" value="JULIANDAY(?1) - JULIANDAY(?2)"/>
</FUNCTION>

不固定个数参数情况

我们前面看到的都是函数参数个数固定的例子,但还有一些事先无法固定参数个数的情况,比如字符串连接,case when,以及取多个参数中的第一个非空值等。

SPL 对这种动态参数个数的情况也提供支持,将 FUNCTIONS 节点的 type 值配置成 AnyParam,也就是任意个数参数。

<FUNCTIONS type="AnyParam">
    <FUNCTION name="coalesce">
    	<INFO dbtype="ESPROC" script='"ifn(" + ?.concat@c() +")"'/>
    </FUNCTION>
    <FUNCTION  name="concat">
    	<INFO dbtype="ESPROC" script=' "concat("+ ?.concat@c() +")" '/>
		<INFO dbtype="ORACLE" script=' ?.concat("||") '/>
		<INFO dbtype="DB2" script=' ?.concat("||")'/>
		<INFO dbtype="SQLSVR" script=' ?.concat("+")'/>
		<INFO dbtype="POSTGRES" script=' ?.concat("||")'/>
		<INFO dbtype="TERADATA" script=' ?.concat("||")'/>
		<INFO dbtype="HSQL" script=' ?.concat("||")'/>
    </FUNCTION>
  </FUNCTIONS>

我们只需要在 FUNCTION 增加数据库类型和对应的翻译脚本(SPL 语法),比如要为字符串函数 CONCAT 增加对 Oracle 的支持,在 <FUNCTION name="concat"> 下添加如下内容:

<INFO dbtype="ORACLE" script=' "("+ ?.concat(" || ") +")" '/>

即可完成。

配置完后,当 SQL 语句:

SELECT EID,NAME,BIRTHDAY,concat(EID,"_",NAME) FROM EMP

数据库类型是 ORACLE 时会被翻译成:

SELECT EID,NAME,BIRTHDAY,(EID || "_" || NAME) FROM EMP

数据库类型是 ESPROC 时会被翻译成:

SELECT EID,NAME,BIRTHDAY,concat(EID,"_",NAME) FROM EMP

..

至此,我们已经学会了如何使用翻译函数,如何配置,以及如何新增函数和数据库,包括参数个数不定的情况。

与应用结合

仅用 SQL 翻译

在应用中使用 SPL 的 SQL 翻译功能,最简单的方式就是用 sqltranslate 把 SQL 翻译成目标数据库的语法后执行。

SPL 中翻译 SQL 的 API 是 com.scudata.dm.sql.SQLUtil.translate 函数,直接使用它就可以实现 SQL 语法的翻译。

String sql = "select name, birthday, adddays(birthday,10) day10 from emp";
sql = com.scudata.dm.sql.SQLUtil.translate(sql, "MYSQL");

不过,需要说明的是,SPL 官方并不推荐直接使用 API,而是建议使用 SPL 的 JDBC 接口,但仅仅为了个字符串转换动作而写好几行代码连接 JDBC 确实有点麻烦,所以我们直接使用了 API。

另外,我们希望把 SQL 移植做到尽量透明,除了首次改写,以后再换数据库无需再更改代码重编译,只要维护配置文件即可。因此,我们把数据库类型维护在配置文件中。

比如,我们增加数据库类型配置文件 dbconfig.properties ,里面配置数据库类型,如 MYSQL。

dbconfig.properties 内容:

database.type=MYSQL

然后封装一个翻译方法,调用 SPL 的 API 完成 SQL 翻译。

public static String translateSQL(String sql) {
    String dbType = null;
    try (InputStream input = SQLTranslator.class.getClassLoader().getResourceAsStream("dbconfig.properties")) {
        Properties prop = new Properties();
        if (input == null) {
            System.out.println("Sorry, unable to find dbconfig.properties");
            return null;
        }
        prop.load(input);
        dbType = prop.getProperty("database.type");
    } catch (Exception ex) {
        ex.printStackTrace();
    }
    return SQLUtil.translate(sql, dbType);
}

主程序调用,传入 SQL 并调用 SQL 翻译,后面的代码与原来完全一致,包括设置参数、执行 SQL、获取结果集等等。事实上,主程序代码仅仅增加了一句 sql = translateSQL(sql)

public static void main(String[] args) {
  ……
  String sql = “SELECT name, birthday, adddays(birthday,10) day10 “
	+ “ FROM emp where dept=? and salary>?” ;
    sql = translateSQL(sql);
    
    pstmt.setString(1, "Sales");   
    pstmt.setDouble(2, 50000); 
    ……
}

透明化并执行 SQL

前面的方法在调用时需要多做一步翻译,如果执行 SQL 的地方比较多,原程序的改动也会比较大。而且还使用了官方不推荐的接口,未来可能有不兼容的风险。

为了克服这些缺点,我们还可以采用更透明的方法,即把 SQL 翻译以及执行 SQL 获取结果集的动作也在 SPL 内完成。

SPL 提供了标准 JDBC 支持,只要将数据库驱动和 URL 都改成 SPL 的,其它代码可以完全不动,既不需要封装方法,也不需要显式翻译。

public static void main(String[] args) {
    String driver = "com.esproc.jdbc.InternalDriver";
    String url = "jdbc:esproc:local://";
    try {
        Class.forName(driver);
        Connection conn = DriverManager.getConnection(url);
        String sql = "SELECT orderid, employeeid, adddays(orderdate,10) day10,amount "
                + "FROM orders WHERE employeeid > ? AND amount > ?";
        PreparedStatement st = conn.prepareStatement(sql);
        st.setObject(1,"506");
        st.setObject(2,9900);
        ResultSet rs = st.executeQuery();
        while (rs.next()) {
            String employeeid = rs.getString("employeeid");
            System.out.print(employeeid+",");
        }
    } catch (Exception e) {
        throw new RuntimeException(e);
    }
}

这段代码中并没有翻译的过程,那是怎么实现 SQL 翻译的呢?看起来似乎有点神奇。

关键点在于 SPL 的 JDBC 网关。我们事先配置一个 SPL 脚本,JDBC 中执行所有 SQL 语句都会先交给这个脚本处理执行。也就是说,SQL 的翻译和执行都是在脚本中完成的。

要使用 JDBC 网关,需要在 raqsoftConfig.xml 中的 JDBC 节点配置 SPL 脚本,比如这里配置的 gateway.splx。

    <JDBC>
		<load>Runtime,Server</load>
		<gateway>gateway.splx</gateway>
    </JDBC>

网关脚本需要两个参数,一个 sql 参数用于接收 SQL 语句,另一个 args 参数则用于接收 SQL 语句中的参数,也就是 JDBC 给 SQL 传递的参数。

..

下面有个“最后一个参数是动态参数” 的选项 要勾选,这样才能接收到 SQL 语句的多个参数。

我们来看看脚本内容。


A

B

1

if !ifv(dbName)

>call("initGlobalVars.splx")

2

=sql=trim(sql).sqltranslate(dbType)


3

=argsN=args.len()

=("sql"|argsN.("args("/~/")")).concat@c()

4

=connect(dbName)


5

if pos@hc(sql,"select")

return A4.query@x(${B3})

6

else

=A4.execute(${B3})

7


>A4.close()

A1 中判断 dbName 变量是否存在,如果不存在则在 B1 调用初始化脚本 initGlobalVars.splx:


A

1

>env(dbType,file("dbconfig.properties").property("database.type"))

2

>env(dbName,file("dbconfig.properties").property("database.name"))

这个脚本读取配置文件中的数据源名称和数据库类型,用 ENV 函数放置在全局变量 dbType 和 dbName 中。

其中,配置文件 dbconfig.properties 内容:

database.type=MYSQL
database.name=MYDATASOURCE

A2 进行 SQL 翻译,这个方法大家已经不陌生了。

A3 计算参数个数。B3 将参数拼成一个串,比如两个参数的时候 B3 的结果是这样的。

A4 进行数据源连接,这个数据源是在 raqsoftConfig.xml 中配置的,增加 DB 节点配置相应数据源连接信息即可,多个数据源可以依次配置。

            <DB name="MYDATASOURCE">
                <property name="url" value="jdbc:mysql://127.0.0.1:3306/mydb?useCursorFetch=true"/>
                <property name="driver" value="com.mysql.jdbc.Driver"/>
                <property name="type" value="10"/>
                <property name="user" value="root"/>
                <property name="password" value="root"/>
                <property name="batchSize" value="0"/>
                <property name="autoConnect" value="false"/>
                <property name="useSchema" value="false"/>
                <property name="addTilde" value="false"/>
                <property name="caseSentence" value="false"/>
            </DB>

A5 判断是否是 select 语句,我们要实现所有 SQL 的翻译和执行,而 DQL 和 DML 语句的执行方式不同,返回值也不同,所以要分别处理。

如果是 select 语句,B5 使用 db.query 函数进行查询并获得结果,@x 代表查询后关闭数据库连接。这里使用了 SPL 宏,宏替换的语句是这样。

A6 对于非 select 语句,需要使用 db.execute 函数执行 SQL 语句。

整体脚本并不是很复杂,而且以后修改脚本也不需要重启应用,因为 SPL 是解释执行的,支持热切换。

通过这个网关脚本,也可以执行 update 这类 DML 语句。

public static void main(String[] args) {
    String driver = "com.esproc.jdbc.InternalDriver";
    String url = "jdbc:esproc:local://";
    try {
        Class.forName(driver);
        Connection conn = DriverManager.getConnection(url);
        String sql = "update orders set customername = ? where orderid = ? ";
        PreparedStatement st = conn.prepareStatement(sql);
        st.setObject(1,"PTCAG001");
        st.setObject(2,"1");
        st.executeUpdate();
    } catch (Exception e) {
        throw new RuntimeException(e);
    }
}

我们在程序中执行 update 语句看一下,可以看到同样会被翻译成对应的数据库语句,并且更新成功。这意味着所有 SQL 都可以无缝移植。

多库情况

有些应用可能会涉及多个数据库,这种情况应该如何处理呢?

用 SPL 网关翻译并执行 SQL。

public static void main(String[] args) {
    String driver = "com.esproc.jdbc.InternalDriver";
    String url = "jdbc:esproc:local://";
    try {
        Class.forName(driver);
        String mysqlDsName = "mysqlds";
        Connection mysqlConn = DriverManager.getConnection(url);
        String setDS = "setds  "+ mysqlDsName;
        PreparedStatement setst = mysqlConn.prepareStatement(setDS);
        setst.execute();

        String sql = "SELECT orderid, employeeid, adddays(orderdate,10) day10,amount "
                + "FROM orders WHERE employeeid > ? AND amount > ?";
        PreparedStatement st = mysqlConn.prepareStatement(sql);
        st.setObject(1, "506");
        st.setObject(2, 9900);
        ResultSet rs = st.executeQuery();
        while (rs.next()) {
            String employeeid = rs.getString("employeeid");
            System.out.print(employeeid + ",");
        }
    } catch (Exception e) {
        throw new RuntimeException(e);
    }

这里为不同数据源分别建立 Connection,并增加一步设置数据源名称,数据源解析在网关脚本中处理,其余执行 SQL 部分则与原来程序完全一致。

网关脚本的参数与前面的单库网关脚本完全一致,sql 参数用于接收 SQL 语句,args 参数用于接收 SQL 参数。

..

网关脚本 gateway.splx 内容:


A

B

1

if !ifv(dbs)

>call("initGlobalVarsMulti.splx")

2

=sql=trim(sql)


3

if pos@hc(sql,"setds")

>env@j(dsName,lower(trim(mid(sql,7))))

4


>env@j(dbType,dbs.select(name=="database."+dsName+".type").value)

5


return

6

=sql=sql.sqltranslate(dbType)


7

=argsN=args.len()

=("sql"|argsN.("args("/~/")")).concat@c()

8

=connect(dsName)


9

if pos@hc(sql,"select")

return A8.query@x(${B7})

10

else

>A8.execute(${B7})

11


>A8.close()

处理多库的网关脚本增加了数据源名称设置过程。

B1 调用的 initGlobalVarsMulti.splx 初始化脚本读取配置文件:


A

1

>env(dbs,file("dbsconfig.properties").property())

结果如下:

..

A3 接收程序传递的设置数据源参数,也就是:setds mysqlds,如果是以 setds 开头,则在 B3 将数据源名称放置在任务变量 dsName 中,任务变量的作用域是同一个 Connection,接下来所有该数据源下的 SQL 语句可以直接运行,B4 类似,根据数据源列表 dbs 查找数据库类型并存入 dbType 任务变量中。

A6 开始的脚本与单库一样,此处不再赘述。

这个网关脚本仍然能处理所有 SQL 语句,全部能够无缝移植。


至此,我们实践完了 SPL 如何完成多源混算。诚然,这里并没有穷尽所有多源混算情况,但理解了 SPL 的运行原理,知道如何连接各类数据源,进行多源还是单源计算都是一样的了。