计算&AI •
979 引用 •
1069 回帖 •
466 关注
博客
关注
-
在开发数据库应用时,经常在分组后需要对组内数据进行计算,例如:列出近3年每年都发表过论文的学生名单(按论文发表年分组后列出每年都出现的学生清单),统计全部参加了历次培训的员工(按培训分组后统计 ..
-
业务系统的数据绝大多数存储在关系数据库(RDB)中,SPL能便捷地读写数据库中的数据。下面以Mysql中MyCompany库的一个employees表为例解释SPL的相关用法。 [图片] 读取 ..
-
一、 问题背景与适用场景 通常分组计算都采用hash方案,即先计算分组字段的hash值,hash值相同的记录被分拣到一个小集合里,然后在这个小集合中遍历找分组字段值相 ..
-
-
Excel 可以对数据进行分组汇总,也可以用透视表对数据进行多层次分析,但提供的汇总及相关运算都很简单,稍复杂一些的运算没法实现或者很难实现了。比如我们希望计算分组内的排名,按分组汇总值再过滤 ..
-
【摘要】 数据分析时,难免会遇到内存装不下的大数据文件,如何对大文件进行查询计算?本文分析比较了几种常用办法的优缺点,集算器 SPL 是其中最适合数据分析师用于处理大文件的脚本。请点击 ${a ..
-
【摘要】 应用系统软件项目中有一个普遍现象,就是报表总也做不完。不管是领导需要的宏观数据统计重点的变化,还是业务部门的计算口径的变化,都会造成报表需求的频繁变更。报表项目组就要不断修改现有报表 ..
-
我们知道,数据库的数据处理能力是封闭的。所谓封闭性,这里是指要被数据库计算和处理的数据,必须事先装入数据库之内,数据在数据库内部还是外部是很明确的。 数据库一般有 OLTP 和 OLAP 两个 ..
-
简介: SPL 的集合是彻底的离散化集合,集合成员可以游离在集合之外,这让许多复杂的运算简单化,会让程序既写的简单,又跑得快。 [图片][图片][图片][图片][图片][图片][图片][图片] ..
-
Excel文件是很常见的文件格式,读写时需要注意如下一些问题: 1、 标题行:此行是各列的名称,也可以没有标题行,第一行就是数据记录。 2、 大文件:文件数据很多,不能 ..
-
一、 问题背景与适用场景 在《[链接]》中,我们尝试了小事实表与大维表关联时的性能优化方法,该方法利用了小事实表可以装入内存的特点,将关联键汇集排序后到大维表中查找, ..
-
集算器实现 Birt 等报表工具中不规则月份统计 业务报表中,常常需要基于时间段进行分组统计,特别是按月份分组统计。一般情况如果按自然月就简单了,但有时候也会需要按不规则月份来分组。例如,某企 ..
-
What?写在格子里的程序语言?! 是的!你没看错,写在格子里的程序语言 SPL(Structured Process Language),专门用于结构化数据处理。 我们知道,几乎所有编程语言 ..
-
【摘要】 大表自己关联自己的情况是比较常见的需求,关系数据库实现起来性能不尽如人意。有没有更好的计算方法,可以快速计算大数据量明细表的自关联性能问题?点击 ${article} 了解集算器高性 ..
-
一、 问题背景与适用场景 在《[链接]》中我们验证了有序归并算法提高关联性能的效果,那么还有没有进一步提升的空间呢?能不能再减少数据的读取量从而再提速呢? 通常主子关 ..
-
【摘要】 集算器产品中提供了 HTTP 服务,用户可以通过 url 的方式读取 SPL 的结果集 ${article} 实现思路如下: [图片] 部署服务 部署服务器操作可分为两步,首先是配置 ..
-
【摘要】 当有了报表工具之后 (固定报表),一些中国式复杂样式、指标参数任意组合的报表并不难实现,只是当原始数据量一大,查询响应就会非常慢,用户体验变差,当多并发请求时,还会对正常业务产生影响 ..
-
【摘要】 一些特殊的布局版面,很难通过报表工具本身提供的功能直接实现,但如果准备出合适的数据源,就能大大降低报表设计的难度!集算器就是这样的数据源准备工具,它可以很好的弥补这方面不足。其实还有 ..
-
当股价上涨时遇到压力,呈现出卖方力量强于买方力量的势态,此时股价趋于滞涨或回撤,把该价位看做阻力位;反之,把买方力量强于卖方力量,股价趋于止跌或反弹时的价位看作支撑位。阻力支撑相对强度(Res ..
-
[图片][图片][图片][图片][图片][图片][图片][图片][图片][图片] [链接]
-
来源:[链接] **【摘要】** 早期的 Mongodb 版本没有 $lookup 接口来实现连 ..
-
【摘要】 在实际的报表开发过程中,当我们遇到问题,往往并不能一开始就想到最优的解决办法。我们可以试着先用最简单、最容易的办法实现,然后再一步步进行优化;对比每种方案的存在的缺陷及改进后所带来的 ..
-
【摘要】 SPL 可将文本文件按体积大致分为 N 段,而不是按行号精确分段,如此可大幅提高并行计算性能。通过 JDBC 取数时,有时会遇到数据库负载虽然不重,但取数性能仍然较差的情况,这种情况 ..
-
在日常数据分析时,经常会遇到需要按列分组 (groupby) 的任务,如计算某公司各部门的人数,计算各部门男女平均工资,计算不同年代的员工的平均工资等等。在进行这类运算时,Pandas 提供了 ..
-
一、 问题背景与适用场景 在以前的文章中我们介绍过,关系数据库在进行表间关联时是使用HASH分段技术。设两个关联表的规模(记录数)分别是 N 和 M,则 HASH 分 ..