计算&AI •
874 引用 •
936 回帖 •
446 关注
博客
关注
-
[图片][图片][图片][图片][图片][图片][图片][图片][图片][图片] [链接]
-
【摘要】 用户客群(标签)多的可以达到几千个,每个客群可能包括几十万甚至上千万的用户。要统计几个客群共同用户,同时要按照客户维度过滤。以 SQL 为基础的数据库技术(包括 Hadoop)一直很 ..
-
【摘要】 集算器 SPL 集成了对 python 程序的调用,也提供对建模算法接口支持。具体开发要求、使用详细情况,请前 ..
-
一、 问题背景与适用场景 在《[链接]》中我们验证了有序归并算法提高关联性能的效果,那么还有没有进一步提升的空间呢?能不能再减少数据的读取量从而再提速呢? 通常主子关 ..
-
【摘要】 应用系统软件项目中有一个普遍现象,就是报表总也做不完。不管是领导需要的宏观数据统计重点的变化,还是业务部门的计算口径的变化,都会造成报表需求的频繁变更。报表项目组就要不断修改现有报表 ..
-
在开发数据库应用时,经常在分组后需要对组内数据进行计算,例如:列出近3年每年都发表过论文的学生名单(按论文发表年分组后列出每年都出现的学生清单),统计全部参加了历次培训的员工(按培训分组后统计 ..
-
集算器实现 Birt 等报表工具中不规则月份统计 业务报表中,常常需要基于时间段进行分组统计,特别是按月份分组统计。一般情况如果按自然月就简单了,但有时候也会需要按不规则月份来分组。例如,某企 ..
-
一、 问题背景与适用场景 在《[链接]》中,我们尝试了小事实表与大维表关联时的性能优化方法,该方法利用了小事实表可以装入内存的特点,将关联键汇集排序后到大维表中查找, ..
-
What?写在格子里的程序语言?! 是的!你没看错,写在格子里的程序语言 SPL(Structured Process Language),专门用于结构化数据处理。 我们知道,几乎所有编程语言 ..
-
**【摘要】** 将 Mongodb 数据结构转换成结构化的数据需求,我们可利用集算器 SPL 语言来进行辅助实现。若 ..
-
Excel文件是很常见的文件格式,读写时需要注意如下一些问题: 1、 标题行:此行是各列的名称,也可以没有标题行,第一行就是数据记录。 2、 大文件:文件数据很多,不能 ..
-
一、 问题背景与适用场景 通常分组计算都采用hash方案,即先计算分组字段的hash值,hash值相同的记录被分拣到一个小集合里,然后在这个小集合中遍历找分组字段值相 ..
-
【摘要】 当有了报表工具之后 (固定报表),一些中国式复杂样式、指标参数任意组合的报表并不难实现,只是当原始数据量一大,查询响应就会非常慢,用户体验变差,当多并发请求时,还会对正常业务产生影响 ..
-
当单台数据库的数据量太大而影响性能时,可以把数据拆分到多台服务器上,每台服务器只承担部分计算压力,再由SPL合并计算结果。特殊地,数据可拆分为历史数据库和当前实时数据库,由SPL实现T+0计算 ..
-
【摘要】 数据分析时,难免会遇到内存装不下的大数据文件,如何对大文件进行查询计算?本文分析比较了几种常用办法的优缺点,集算器 SPL 是其中最适合数据分析师用于处理大文件的脚本。请点击 ${a ..
-
【摘要】 Java 是当前最为主流的企业应用开发语言,而开发企业应用又不可能不与数据、数据库打交道。虽然数据库提供了比较丰富的数据计算功能,但是还是会有很多情况下,需要在 Java 代码中对数 ..
-
来源:[链接] **【摘要】** 早期的 Mongodb 版本没有 $lookup 接口来实现连 ..
-
【摘要】 集算器产品中提供了 HTTP 服务,用户可以通过 url 的方式读取 SPL 的结果集 ${article} 实现思路如下: [图片] 部署服务 部署服务器操作可分为两步,首先是配置 ..
-
【摘要】 事实表和维表进行关联计算时,需要对维表进行频繁的随机访问,因此维表要尽量放在内存中,才能提高关联计算的性能。如果维表较大,单机内存放不下,就应该考虑用集群方式,将维表分段读入多台机器 ..
-
【摘要】 大表自己关联自己的情况是比较常见的需求,关系数据库实现起来性能不尽如人意。有没有更好的计算方法,可以快速计算大数据量明细表的自关联性能问题?点击 ${article} 了解集算器高性 ..
-
【摘要】 TopN 是常见的运算,SQL 的做法通常是先排序,然后再取前 N 行。这样不但效率不高,写起来也不直观。SPL 是如何解决 TopN ..
-
在事实表与维表的关联查询时,常常会遇到需要对维表的数据进行过滤或者针对维表做计算的情况,这时可以有两种处理方式: 1、先做关联(如果是内存则可以是预关联),再对关联后的事实表进行过滤。就象在《 ..
-
一、 问题背景与适用场景 在以前的文章中我们介绍过,关系数据库在进行表间关联时是使用HASH分段技术。设两个关联表的规模(记录数)分别是 N 和 M,则 HASH 分 ..
-
【摘要】 一些特殊的布局版面,很难通过报表工具本身提供的功能直接实现,但如果准备出合适的数据源,就能大大降低报表设计的难度!集算器就是这样的数据源准备工具,它可以很好的弥补这方面不足。其实还有 ..
-
【摘要】 从数据表中选出数据时,有时需要判断成员是否从属于某一个集合。例如从房价表中选出重要城市的房价信息,从销售表中选出 VIP 客户的销售记 ..