>
  • •      •    416 浏览    •   2022-08-22 08:48:30

    3.31 两个大数据表归并法计算并集 

    对两个结构相同的大数据表归并统计,两个表中有部分数据重复。 数据库 db1 和 db2 中分别有结构相同的销售记录表 Sales,数据量大无法装载进内存,统计 2014 年每个客户的销售额。 ..
  • •      •    1 回帖   415 浏览    •   2023-08-29 09:00:47

    发牌 

    问题 四个人打扑克,用一副扑克牌,抽掉大小王,剩余 52 张牌,洗牌后平分给四个人,每人 13 张。现在用 A、B、C、D 表示扑克牌花色,例如 A8 表示黑桃 8,BK 表示红桃 K,请写一 ..
  • •      •    415 浏览    •   2022-10-16 22:14:14

    9.6 将字符串拆分为字符序列 

    将字符串拆分为字符序列。 统计某个网页源码里中括号外的逗号数量。网页源码部分内容如下: ABCDEF … 使用函数 A.split() 将字符串拆分成字符序列。 脚本: A B C 1 ..
  • •      •    415 浏览    •   2022-09-19 21:37:06

    马氏距离 

    马氏距离计算观测样本在总体样本中的距离,不受量纲的影响。dism(X,Y,C)用来计算向量X与向量Y在协方差矩阵C下的马氏距离。样本数要大于维数。例如同样上述5 个样本,计算两两之间的马氏距离 ..
  • •      •    415 浏览    •   2022-08-07 17:53:39

    3.2 两个集合的交集 

    集合 A 和 B 的交集是指由所有属于集合 A 且属于集合 B 的成员所组成的集合。比如集合 [1,2,3] 与[1,3,5]的交集,是集合[1,3]。 某商家有网店和实体店铺两种销售渠道,其 ..
  • •      •    413 浏览    •   2022-10-25 11:11:30

    10.1 计算 N 天后的日期 

    计算 N 天后的日期。 查询 2015 年,第 2 天内发货且发货后 3 天内到货的订单。订单表如下: ID CustomerID OrderDate DeliveryDate Arrival ..
  • •      •    413 浏览    •   2022-08-04 09:58:03

    2.14 分组:逻辑或 

    有过去数年每个月销售额前三的客户名单,想判断 RATTC 这个客户过去每一年是否曾经进过单月销售额前三。 Year Month Top3 2019 1 ANTON,AROUT,BERGS 20 ..
  • •      •    412 浏览    •   2022-09-29 09:51:38

    7.18 同序表采用归并法连接 - 大数据 

    多个相互关联的表有序,其中包括大数据表,使用有序归并筛选记录。 根据相互关联的订单表、订单明细表和客户表,查询总销售额超过 1 万的客户,其中订单明细表和订单表数据量很大,无法全部加载到内存。 ..
  • •      •    412 浏览    •   2023-11-22 22:10:34

    16.1 按日期的年月统计 

    有数据如下: [图片] 按 Date 的年月统计 Val 的和,结果如下: [图片] 代码如下: =spl('=E(?1).run(Date=date(''18991230'',''yyyyM ..
  • •      •    412 浏览    •   2023-11-22 17:19:29

    12.6 使用关联表做区间关联 

    例 1: 有数据如下: [图片] [图片] 计算 Sheet2 中 Price 列的值,计算规则是用 Quantity 在 Sheet1 中查找,若数量大于 StartQuantity 且小于 ..
  • •      •    1 回帖   411 浏览    •   2023-09-01 09:07:35

    八皇后 

    [图片] 问题 八皇后问题是一个古老而著名的问题。具体为:在 8X8 格的国际象棋上摆放八个皇后,使其不能互相攻击,即任意两个皇后都不能处于同一行、同一列或同一斜线上,请问有多少种摆法。 思路 ..
  • •      •    411 浏览    •   2022-09-30 08:45:03

    7.19 带过滤条件的笛卡尔积 

    两个相互关联的表,获得它们的叉积后过滤计算。 根据三明治表和配料表,查询哪两种三明治的配料最接近。 Sandwich: ID Name Price 1 BLT 5.5 2 Reuben 7.0 ..
  • •      •    411 浏览    •   2022-08-23 11:08:32

    4.1 简单成员排序 

    A 1 =[3,5,6,7,1,2,1,6,654,32,13,56,13,76,87,98,null] 2 =A1.sort() 3 =A1.sort@z() 4 =A1.sort@0() ..
  • •      •    411 浏览    •   2022-08-19 09:34:20

    3.24 多个序表归并法比较差异 

    在结构相同的两个数据文件中,比较其中有多少行数据有差异。 ID Predicted_Y Original_Y 10 0.012388464367608093 0.0 11 0.01519899 ..
  • •      •    411 浏览    •   2023-11-22 22:08:21

    15.6 解析日期 

    有事件备忘录如下: [图片] 将信息里面的日期都分离出来,并且用分号隔开后放到后面一列,方便以后统计。就像如下这种效果: [图片] 在 B1 写入代码: =spl('=?1.split('' ..
  • •      •    1 回帖   410 浏览    •   2023-08-30 09:42:48

    单词的出现率 

    问题 在一篇正规的英文文档中,单词都会以空格、逗号、句号或回车分隔,“-”符号表示连接回车符前后的字符为一个单词。 现有一篇符合上述特征的文档,请找出其中一共出现过多少个不同的单词,以及每个单 ..
  • •      •    410 浏览    •   2022-12-21 08:55:26

    2.4 主线 

    原值的波动可能比较频繁,但整体上呈现某一种趋势,主线就是描述这种趋势的衍生序列。 通俗的讲,将原值平滑后就可以描述原值的趋势。平滑化最常见的手段的就是平均,具体到时间序列就是移动平均。 时间序 ..
  • •      •    410 浏览    •   2022-09-11 22:00:34

    相关系数 

    SPL 中提供 pearson()和spearman()函数,来评估两变量之间的相关程度 A B 1 =[7,9,6,23,56,1,6] =[6,1,56,23,6,9,7] 2 =pear ..
  • 查找子表中无法指向主表的记录。在相互关联的产品表和类别表中,查询产品类别未出现在类别表中的有哪些。 Product ID Name CategoryID … Category ID Name ..
  • •      •    410 浏览    •   2022-07-25 08:14:35

    1.16 分组:用汇总值筛选分组 

    有如下日产品销售额表,找出日销售总额超过 30 万的日期有哪些: OrderDate ProductName Sales 1996-07-04 Aniseed Syrup 51919.0000 ..
  • •      •    410 浏览    •   2023-11-22 22:08:03

    15.5 解析数字 

    有一列混合了字符和数字的数据,其中数字可能在多处出现,且出现规律不定: [图片] 将每一行中的所有数字分离出来,并将分离出来的结果放置到 B 列,期望效果如下图: [图片] 在 B1 写入: ..
  • •      •    409 浏览    •   2022-08-22 22:03:04

    矩阵的生成 

    在SPL 中,矩阵以二级序列的形式存在,比如[[22,7.25],[38,71.2833],[26,7.925],[35,53.1],[35,8.05]],每一个子序列表示一行,通常是一个样本 ..
  • •      •    408 浏览    •   2022-08-16 09:50:16

    3.18 同序集合按原序归并计算合集 

    在结构相同的两个表中,根据多个字段将其中的记录有序归并。 数学和英语成绩分别存储在两个文件中,统计每位学生的总分。 数学: CLASS STUDENTID SUBJECT SCORE 1 1 ..
  • •      •    408 浏览    •   2023-11-22 17:19:51

    12.7 使用二维关联表 

    有儿童身高评分数据如下:A1、B1、C1 是年龄段,其下是身高 (cm),D 列是评分。 [图片] 有儿童信息数据如下: [图片] 现在要根据年龄 Age 和身高 Height 到 Sheet ..
  • •      •    406 浏览    •   2022-11-14 00:08:38

    欠抽样 

    欠抽样是通过减少多数类样本的样本数量来实现样本均衡。其中比较简单直接的方法就是随机去掉一些数据来减少多数类样本的规模。 例如,泰坦尼克数据中目标变量Survived是一个取值为0,1的二值变量 ..
关注乾学院公众号
消息
×
loading..