计算&AI •
874 引用 •
936 回帖 •
446 关注
博客
关注
-
有序存储是将数据按照某些字段(通常是主键或部分主键)排序后,连续写入外存(主要是硬盘)。有序存储能实现低成本的数据压缩,能够避免频繁跳跃的读取硬盘。而且,计算时从硬盘中连续读出的就是排好序的数 ..
-
我们知道,数据库的数据处理能力是封闭的。所谓封闭性,这里是指要被数据库计算和处理的数据,必须事先装入数据库之内,数据在数据库内部还是外部是很明确的。 数据库一般有 OLTP 和 OLAP 两个 ..
-
【摘要】 关联动作会严重影响性能,SPL 支持内存预关联,可以加快关联动作,从而提升性能。为了理解关联动作对性能的影响,下面设计一套 Oracle 关联表,以及无关联的宽表,并执行同样的计算。 ..
-
【摘要】 SPL 的特征之一是数据有序,适当地利用位置,可以显著提高性能。让我们先从一个典型场景开始,逐步掌握利用位置的各种技巧。 对排序后的数据进行二分查找,可以获得较高的性能,但有些算法需 ..
-
当事物比较多时,人们习惯将这些事物分类,然后再做聚合运算。如查看学校各班级的最高成绩,查看公司员工各部门的平均年龄等,这种运算称为分组,大多数分组也会伴随着下一步的聚合运算。最常见的分组是将属 ..
-
【摘要】 很多算法都会产生落地的中间结果,从而影响性能,尤其是数据量较大的时候。这种情况下通常可用程序游标来避免数据落地,下面举例说明。 计算目标:订单表原来已按时间排序,需要将数据按日期、产 ..
-
人们天然对序运算感兴趣,比上期、同期比等都是序运算,本文对比 Python 和 SPL 的有序运算。 排序 排序是最常见的运算了,如: 按日期对代码为 000062 的股票排序。 股票数据如下 ..
-
【摘要】 L 银行贷款协议存储过程执行需要 2 个小时,严重影响整个跑批任务!如何破解?点击了解 ${article} 问题描述 L银行跑批任务包含很多存储过程,其中“对公贷款协议明细”存储过 ..
-
从集合中选出子集是常见运算,比如从公司成员中选出年龄大于 40 的成员等,本文对比 Python 和 SPL 的选出运算。 选出指定位置的成员 如:公司成员信息表如下,请选出偶数位置的公司成员 ..
-
针对集合每个成员计算,遍历后得出一个新结果的函数,我们通称为循环函数。Python原生的 list 循环函数太少了,稍微复杂一些的循环就得用 for 来写了,所以这里就不介绍了,我们主要对比 ..
-
【摘要】 S 银行的手机银行活期明细查询后台是 Elastic Search,营业单位代码表要通过预先关联冗余到明细宽表中。当营业单位发生变更时,必须刷新几亿条数据量的大表,耗时好几个小时。点 ..
-
序列是被排成一列的对象(或事件),这样每个元素不是在其他元素之前,就是在其他元素之后,元素之间的顺序非常重要。 集合是具有某种特定性质的具体的或抽象的对象汇总而成的集体。构成集合的这些对象则称 ..
-
【摘要】 X 银行把上亿客户划分为几千个客群,要计算任意几个客群的交集,还要按照维度过滤,还要秒级响应?点击了解 ${article} 问题描述 X银行用户画像应用中,需要完成客群交集计算。客 ..
-
HBase是基于HDFS的K-V数据库,有关系数据库中类似的概念:库(namespace)、表、行、列、字段值、主键等。 HBase存取数据和关系数据库大不相同,不支持SQL,提供了get、s ..
-
【摘要】 B 银行自助分析系统只能支持 5 并发,造成大量业务人员长时间等待。如何破解?点击了解 ${article} 现状分析 B银行的电子银行自助分析系统,需要查询指定日期的客户交易明细。 ..
-
【摘要】 数据分析场景中,充斥着聚合运算,常见的有求和、计数、均值、最大最小值等等,想要得到正确的结果值,遍历技术必不可少,如何更加高效地对数据进行遍历?点击:性能优化技巧 - 遍历,来乾学院 ..
-
【摘要】 排序计算是一个非常消耗资源的操作,特别是对于大数据排序,如果内存无法装下数据,常规的做 ..
-
现代Java应用架构越来越强调数据存储和处理分离,以获得更好的可维护性、可扩展性以及可移植性,比如火热的微服务就是一种典型。这种架构通常要求业务逻辑要在Java程序中实现,而不是像传统应用架构 ..
-
【摘要】 只用了一天的时间,就把明细查询提速 2000 多倍,真的很香!点击了解 ${article} 问题描述 C保险公司业务系统中,团体保险明细查询速度很慢。查询时输入保单号,要返回团体保 ..
-
什么样的代码算低? 低代码这个词这两年热闹起来,冒出一堆创业团队搞这东西。以前只知道代码有长短,现在才知道代码还有高低。 所谓低代码,直观来讲,就是让代码写起来更简单。完成同样的任务时,代码量 ..
-
【摘要】 日常生活中,我们会遇到各种各样的数据,小到公司通讯录,大到互联网用户行为分析。在进行数据分析处理的过程中,查询是必不可少的环节,如何更加高效地进行数据查询。点击:性能优化技巧 - 查 ..
-
SPL是一种面向结构化数据计算的程序设计语言,集算器是SPL语言的java实现,采用网格式编程 ..
-
转置功能常用报表等前端展现,将查询出来的数据转置成指定的显示格式。比如行转列,列转行,以及比较复杂的动态转置等等。其中静态转置是指,转置后的表结构事先可以确 ..
-
OLAP(Online Analytical Processing)是指在线联机分析,基于数据查询计算并实时获得返回结果。日常业务中的报表、数据查询、多维分析等一切需要即时返回结果的数据查询任 ..
-
MongoDB是非关系数据库,以类似JSON的BSON格式存储数据,它提供了一整套命令操作数据,轻量计算引擎语言SPL支持嵌套的数据结构,很容易加载JSON数据,可以用SPL扩展MongoDB ..