图书 •
851 引用 •
238 回帖 •
4 关注
博客
关注
-
[图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [ ..
-
[链接] [链接]6.7 对位序列 对于已经序号化的外键,我们还可以使用对位序列来处理维表上的过滤。 A 1 =file('product.btx').import@b() 2 =file(' ..
-
[链接] [链接]4.8 冗余分组键 有时为了方便处理,数据表中会有些冗余的字段。比如订单表里可能有客户编号同时也有客户名称,而客户名称完全可以由客户编号确定,客户名称就是冗余的信息。这种数据 ..
-
[链接] [链接]1.3 位置索引 有时候我们希望查找出目标值在序表中的位置,而不是目标值本身。如果序表对被查找键无序时,就无法使用二分法来提高性能了。事先把数据按被查找键排序后可以使用二分法 ..
-
[图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [ ..
-
[链接] [链接]2.6 复组表 OLAP 业务使用的历史数据一般不会有大量频繁的更新动作,但有时历史数据的大批删除却是必要的。年代久远的数据已经失去查询分析的意义,如果继续存放在数据表中,即 ..
-
[图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [ ..
-
[图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [ ..
-
[图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [ ..
-
现有 Amount.xlsx 文件如下所示: [图片] 这是一些重点关注客户购买某几种产品的金额汇总,现在需要把它按产品进行拆分,每个产品存一个文件,以产品名作为文件名,以 Amount 作为 ..
-
[链接] [链接]6.9 单边分堆 我们最后来处理维表和事实表都很大的情况,通常事实表会更大。这种情况无论如何都很难高速计算出来,但仍然要想办法尽量做得快。 是否可以把事实表用游标读出来,分批 ..
-
11.1 大数据和游标 1. 用程序生成一份大文件,形如下图。要求order_id有序且唯一,user_id随机且有重复,dt有序,due_amt随机,user_scoer取0-1之间的随机值 ..
-
[链接] [链接]3.5 索引预加载 我们知道,大数据的索引经常也很大,需要建立多级索引,每次查找时都要一级一级地读入,才能最终定位到目标值。因为外存访问的复杂度很高,即使有操作系统的缓存能避 ..
-
[链接] [链接]6.2 临时地址化 地址是个内存概念,外键地址化只能在全内存时实施,但大数据常常需要外存计算。 我们先来考虑事实表大而维表仍然较小的情况,这也是现实中比较常见的情况。事实表用 ..
-
通过叉积过滤,计算矩阵相乘。 Matrix row col value [图片] 本例的数学公式如下: [图片] 使用 xjoin() 函数计算叉积,同时可以根据条件过滤。 脚本: A 1 = ..
-
esProc 提供了 clipboard() 函数,可以与剪贴板交换数据。 下面用“各科前 3 名的学生”为例进行说明。 Excel 中处理前的数据如下,其中 A 列是学生姓名,B-D 列分别 ..
-
[链接] [链接]5.8 索引排序 我们知道索引的本质就是排序,如果我们想把数据表按被查找键排序,是不是可以利用已经建好的索引呢? 很遗憾,大部分情况没有效果。 如果原始数据表并没有按被查找键 ..
-
10.1 主键 1.有销售数据如下: ID Name Sales 010010001 Tom 7,588,420 010010002 John 8,953,172 010010003 Joan ..
-
[链接] [链接]5.1 有序分组汇总 如果数据表对分组键有序,可以实施有序分组算法。 有序分组的过程很简单,遍历时只要将当前记录和最后一个分组子集对比键值,如果相同,则将这条记录继续分到这个 ..
-
[图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [ ..
-
对于时间序列来说,比较两个时间序列的相似性是一个很普遍的任务。通俗来说,两个时间序列的数据越接近,它们的图像“长得越像”,两个时间序列就越相似,而形容它们“长得像”的程度就是相似度,用sm表示 ..
-
计算向量的最大最小值、平均值、中位数、众数、四分位数、极差、方差、标准差、偏度、标准误 A 1 [7,9,6,23,56,1,6] 2 =A1.max() 3 =A1.min() 4 =A1. ..
-
[图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [ ..
-
7.1 字符串 1. 已知字符串“I want to learn esProc SPL !”,要求如下 (1)计算字符串的长度 (2)请将字符串中的字母全部改为大写 (3)获取字符串左边3位 ..
-
[链接] [链接]9.7 多作业负载均衡 和单机上的多线程并行类似,第一节中讲述的多机并行框架也会等待最慢的分机返回结果后才会继续。我们可以尽量使分机计算的数据量更均衡,但并不能保证各分机执行 ..