"我在[链接] 链接文章里面看到有这样一段话: “在物理表中,我们可以用整型字段的二进制位存储布尔字段,这样,一个 16 位短整型字段就能存储 16 个布尔值,每个二进制位存储一个,可以减少存储 .."
我 SPL 虚表的数据类型优化 链接文章里面看到有这样一段话:“在物理表中,我们可以用整型字段的二进制位存储布尔字段,这样,一个 16 位短整型字段就能存储 16 个布尔值,每个二进制位存储一个,可以减少存储空间占用。”
但我看 spl 的数据类型里面只有 int 类型 32 位的,请问目前支持 int 类型 16 位的吗?这样的好处是 使得存储空间更小,加载存储数据文件会更快,解析比较的速度也更优。
还是有规划在后续版本里面支持这个 int16 数据类型?
btx/ctx 都做了编码压缩,小整数会自动存成 4 字节,更小的整数甚至 1 字节都可能,而且也不止于整数,很多数据类型都被重新编码。
目前看主流的大数据引擎里面都支持 bitmap 存储的结果,来优化存储和查询;请问咱们 spl 对 bitmap这种数据结构有案例分享吗?还是未来有规划?
你引用这篇文章不就在说 bitmap 机制吗。案例和实践例程都有,很多年前就有了
开源 SPL 提速银行用户画像客群交集计算 200+ 倍SQL 提速:二值标签多维分析后台实践 7:布尔维度和二值维度
btx/ctx 都做了编码压缩,小整数会自动存成 4 字节,更小的整数甚至 1 字节都可能,而且也不止于整数,很多数据类型都被重新编码。
目前看主流的大数据引擎里面都支持 bitmap 存储的结果,来优化存储和查询;请问咱们 spl 对 bitmap
这种数据结构有案例分享吗?还是未来有规划?
你引用这篇文章不就在说 bitmap 机制吗。案例和实践例程都有,很多年前就有了
开源 SPL 提速银行用户画像客群交集计算 200+ 倍
SQL 提速:二值标签
多维分析后台实践 7:布尔维度和二值维度