计算&AI •
796 引用 •
800 回帖 •
419 关注
博客
关注
-
使用数据库存储数据很常见,数据库不仅提供了多种存储策略,还可以满足数据一致性的要求,基于数据库还能很方便完成数据计算,但使用数据库存储数据也有一些缺点,在一些场景下并非最佳选择。与数据库相对的 ..
-
《Python和 SPL对比系列 10——一对 N关联》介绍了关联关系中的一对一和一对 N 关联,本文对比 Python 和 SPL 多对一关联的运算能 ..
-
FTP是常用的文件传输服务。JAVA虽然也提供了从FTP server读写文件的接口,但用起来不够便捷,因此,SPL进一步地提供了方便函数。 创建/ 关闭FTP 连接 使用方式类似关系数据库的 ..
-
索引类似于原表的 '目录',是在原表之外,另外建立的存储结构。在做查找计算时,先查索引,在 '目录' 中找到原表的位置,再去原表找到对应的记录。查索引比查原表快的越多,索引提速的效果越明显。 ..
-
报表查询分析都要涉及数据准备,就是把原始数据加工成可以呈现或分析的形式(如常见的报表数据集)。不过,数据准备经常并不轻松,可能面临各种复杂的情况。 数据准备面临的挑战 多样性数据源 当前业务的 ..
-
日常工作中,经常需要把多个 Excel 文件的数据合并到一起,便于做各种统计分析。 1 纵向合并 - 列名列数相同 最简单常见的 ..
-
分组后再汇总,通常会得到一个比原集合更小的集合,相当于做了聚合;逆分组相当于分组的逆运算,用一个较小的数据表通过某种规则计算出一个更大的数据表;转置也就是常说的行转列,相当于是分组的变种,逆转 ..
-
1 单个行式文本文件转换成Excel 行式文本中一行对应一条数据,是很常见的文件格式,比如下面这个水果价格表。 文件名【Fruits.txt ..
-
先说观点:因为还没找到更好的。 接下来说原因,首先来看看大数据平台都在干什么。 原因 结构化数据计算仍是重中之重 大数据平台主要是为了应对海量数据存储和分析的需求,海量数据存储的确不假,除了生 ..
-
针对存储过程优缺点的讨论(争论)由来已久,这里我们不妨来详细盘点一下存储过程的利与弊。 先说优点 毕竟还是有不少人在用,总要有点好处。 SQL 过程化 很少人提及存储过程的这个优点,似乎是认为 ..
-
人们对序运算天然是感兴趣的,分组运算也会涉及到次序。本文对比 Python 和 SPL 在有序分组的运算能力。 位置分组 成员的位置信息可能参与分组计算 ..
-
通常的分组都是等值分组,有以下几个特点: 1) 原集合的所有成员都在且只在唯一的组中; 2) 没有一个组是空集; 满足这种特点分组在数学上又称为完全划分。 那么是不是还有不完全划分呢? 是的, ..
-
当事物比较多时,人们习惯将这些事物分类,然后再做聚合运算。如查看学校各班级的最高成绩,查看公司员工各部门的平均年龄等,这种运算称为分组,大多数分组也会伴随着下一步的聚合运算。最常见的分组是将属 ..
-
人们天然对序运算感兴趣,比上期、同期比等都是序运算,本文对比 Python 和 SPL 的有序运算。 排序 排序是最常见的运算了,如: 按日期对代码为 000062 的股票排序。 股票数据如下 ..
-
两个大表做关联,常常会出现性能问题。其中比较常见的一种情况,是用一个大表的非主键字段,去关联另一个大表的主键。例如:订单表 orders 和客户表 customer 都很大,内存无法装下。订单 ..
-
从集合中选出子集是常见运算,比如从公司成员中选出年龄大于 40 的成员等,本文对比 Python 和 SPL 的选出运算。 选出指定位置的成员 如:公司成员信息表如下,请选出偶数位置的公司成员 ..
-
有序存储是将数据按照某些字段(通常是主键或部分主键)排序后,连续写入外存(主要是硬盘)。有序存储能实现低成本的数据压缩,能够避免频繁跳跃的读取硬盘。而且,计算时从硬盘中连续读出的就是排好序的数 ..
-
针对集合每个成员计算,遍历后得出一个新结果的函数,我们通称为循环函数。Python原生的 list 循环函数太少了,稍微复杂一些的循环就得用 for 来写了,所以这里就不介绍了,我们主要对比 ..
-
序列是被排成一列的对象(或事件),这样每个元素不是在其他元素之前,就是在其他元素之后,元素之间的顺序非常重要。 集合是具有某种特定性质的具体的或抽象的对象汇总而成的集体。构成集合的这些对象则称 ..
-
随着微服务的流行,越来越多应用采用微服务架构开发。如何简单高效地在微服务中完成数据处理成为大家不得不面对的问题。以往单体应用架构下,我们可以借助数据库实施计算,SQL 是专用的集合计算语言,依 ..
-
HBase是基于HDFS的K-V数据库,有关系数据库中类似的概念:库(namespace)、表、行、列、字段值、主键等。 HBase存取数据和关系数据库大不相同,不支持SQL,提供了get、s ..
-
大数据通常是需要外存的,要实现外存并行计算必须有较好的数据分段技术。也就是能方便的把数据拆分成若干部分,让每个线程或进程分别处理。 SPL 采用倍增分段技术,实现了单文件可追加分 ..
-
我们知道,数据库的数据处理能力是封闭的。所谓封闭性,这里是指要被数据库计算和处理的数据,必须事先装入数据库之内,数据在数据库内部还是外部是很明确的。 数据库一般有 OLTP 和 OLAP 两个 ..
-
什么样的代码算低? 低代码这个词这两年热闹起来,冒出一堆创业团队搞这东西。以前只知道代码有长短,现在才知道代码还有高低。 所谓低代码,直观来讲,就是让代码写起来更简单。完成同样的任务时,代码量 ..
-
转置功能常用报表等前端展现,将查询出来的数据转置成指定的显示格式。比如行转列,列转行,以及比较复杂的动态转置等等。其中静态转置是指,转置后的表结构事先可以确 ..