计算&AI •
874 引用 •
936 回帖 •
446 关注
博客
关注
-
日常工作中,经常需要把多个 Excel 文件的数据合并到一起,便于做各种统计分析。 1 纵向合并 - 列名列数相同 最简单常见的 ..
-
数据分析中,经常会遇到两表或多表关联,表间关联关系可以分为以下几种:一对一、一对多、多对一和多对多。一对一关联,是指一张表的一条记录只与另外一张表的一条记录对应;一对多关联,是指一张表的一条记 ..
-
分组后再汇总,通常会得到一个比原集合更小的集合,相当于做了聚合;逆分组相当于分组的逆运算,用一个较小的数据表通过某种规则计算出一个更大的数据表;转置也就是常说的行转列,相当于是分组的变种,逆转 ..
-
Redis是K-V数据库,value可以是String、Hashmap、List、Set、Sortedset。针对每种value提供了一系列不同的操作命令,加上一些管理命令,总计三百多个。这些 ..
-
1 单个行式文本文件转换成Excel 行式文本中一行对应一条数据,是很常见的文件格式,比如下面这个水果价格表。 文件名【Fruits.txt ..
-
先说观点:因为还没找到更好的。 接下来说原因,首先来看看大数据平台都在干什么。 原因 结构化数据计算仍是重中之重 大数据平台主要是为了应对海量数据存储和分析的需求,海量数据存储的确不假,除了生 ..
-
针对存储过程优缺点的讨论(争论)由来已久,这里我们不妨来详细盘点一下存储过程的利与弊。 先说优点 毕竟还是有不少人在用,总要有点好处。 SQL 过程化 很少人提及存储过程的这个优点,似乎是认为 ..
-
人们对序运算天然是感兴趣的,分组运算也会涉及到次序。本文对比 Python 和 SPL 在有序分组的运算能力。 位置分组 成员的位置信息可能参与分组计算 ..
-
通常的分组都是等值分组,有以下几个特点: 1) 原集合的所有成员都在且只在唯一的组中; 2) 没有一个组是空集; 满足这种特点分组在数学上又称为完全划分。 那么是不是还有不完全划分呢? 是的, ..
-
当事物比较多时,人们习惯将这些事物分类,然后再做聚合运算。如查看学校各班级的最高成绩,查看公司员工各部门的平均年龄等,这种运算称为分组,大多数分组也会伴随着下一步的聚合运算。最常见的分组是将属 ..
-
人们天然对序运算感兴趣,比上期、同期比等都是序运算,本文对比 Python 和 SPL 的有序运算。 排序 排序是最常见的运算了,如: 按日期对代码为 000062 的股票排序。 股票数据如下 ..
-
两个大表做关联,常常会出现性能问题。其中比较常见的一种情况,是用一个大表的非主键字段,去关联另一个大表的主键。例如:订单表 orders 和客户表 customer 都很大,内存无法装下。订单 ..
-
SPL 不仅可以做数据准备和计算,还可以调用润乾报表的外部库来生成有格式要求的报表 外部库环境配置 设计器下载及安装 润乾官网下载报表设计器,解压缩后直接安装,安装后自带试用授权,如需其他版本 ..
-
从集合中选出子集是常见运算,比如从公司成员中选出年龄大于 40 的成员等,本文对比 Python 和 SPL 的选出运算。 选出指定位置的成员 如:公司成员信息表如下,请选出偶数位置的公司成员 ..
-
有序存储是将数据按照某些字段(通常是主键或部分主键)排序后,连续写入外存(主要是硬盘)。有序存储能实现低成本的数据压缩,能够避免频繁跳跃的读取硬盘。而且,计算时从硬盘中连续读出的就是排好序的数 ..
-
针对集合每个成员计算,遍历后得出一个新结果的函数,我们通称为循环函数。Python原生的 list 循环函数太少了,稍微复杂一些的循环就得用 for 来写了,所以这里就不介绍了,我们主要对比 ..
-
序列是被排成一列的对象(或事件),这样每个元素不是在其他元素之前,就是在其他元素之后,元素之间的顺序非常重要。 集合是具有某种特定性质的具体的或抽象的对象汇总而成的集体。构成集合的这些对象则称 ..
-
随着微服务的流行,越来越多应用采用微服务架构开发。如何简单高效地在微服务中完成数据处理成为大家不得不面对的问题。以往单体应用架构下,我们可以借助数据库实施计算,SQL 是专用的集合计算语言,依 ..
-
HBase是基于HDFS的K-V数据库,有关系数据库中类似的概念:库(namespace)、表、行、列、字段值、主键等。 HBase存取数据和关系数据库大不相同,不支持SQL,提供了get、s ..
-
大数据通常是需要外存的,要实现外存并行计算必须有较好的数据分段技术。也就是能方便的把数据拆分成若干部分,让每个线程或进程分别处理。 SPL 采用倍增分段技术,实现了单文件可追加分 ..
-
我们知道,数据库的数据处理能力是封闭的。所谓封闭性,这里是指要被数据库计算和处理的数据,必须事先装入数据库之内,数据在数据库内部还是外部是很明确的。 数据库一般有 OLTP 和 OLAP 两个 ..
-
[链接]数据库语言的目标 要说清这个目标,先要理解数据库是做什么的。 数据库这个软件,名字中有个“库”字,会让人觉得它主要是为了存储的。其实不然,数据库实现的重要功能有两条:计算、事务!也就是 ..
-
什么样的代码算低? 低代码这个词这两年热闹起来,冒出一堆创业团队搞这东西。以前只知道代码有长短,现在才知道代码还有高低。 所谓低代码,直观来讲,就是让代码写起来更简单。完成同样的任务时,代码量 ..
-
现实中绝大多数 JOIN 都是字段相等的等值连接,非等值 JOIN 很少见,而且大多数可以转换成等值 JOIN 处理,我们在这里主要讨论等值 JOIN。 与 SQL 不同,SPL ..
-
转置功能常用报表等前端展现,将查询出来的数据转置成指定的显示格式。比如行转列,列转行,以及比较复杂的动态转置等等。其中静态转置是指,转置后的表结构事先可以确 ..