图书 •
828 引用 •
203 回帖 •
3 关注
博客
关注
-
[链接] [链接]6.7 对位序列 对于已经序号化的外键,我们还可以使用对位序列来处理维表上的过滤。 A 1 =file('product.btx').import@b() 2 =file(' ..
-
计算各种评估指标之前,首先需要计算混肴矩阵: 真正类数(True Positive , TP):被模型预测为正的正样本。 假正类数(False Positive , FP):被模型预测为正的负 ..
-
[链接] [链接]4.8 冗余分组键 有时为了方便处理,数据表中会有些冗余的字段。比如订单表里可能有客户编号同时也有客户名称,而客户名称完全可以由客户编号确定,客户名称就是冗余的信息。这种数据 ..
-
[链接] [链接]5.8 索引排序 我们知道索引的本质就是排序,如果我们想把数据表按被查找键排序,是不是可以利用已经建好的索引呢? 很遗憾,大部分情况没有效果。 如果原始数据表并没有按被查找键 ..
-
[链接] [链接]2.6 复组表 OLAP 业务使用的历史数据一般不会有大量频繁的更新动作,但有时历史数据的大批删除却是必要的。年代久远的数据已经失去查询分析的意义,如果继续存放在数据表中,即 ..
-
[图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [ ..
-
[图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [ ..
-
集散指标 ACCUMULATION/DISTRIBUTION(也被称为离散指标)是由价格和成交量的变化而决定的。成交量在价格的变化中充当重要的权衡系数。系数越高(成交量),价格的变化的分布就越 ..
-
[链接] [链接]8.3 冗余排序 无切片条件的汇总运算总要涉及全量数据。如果没有预先汇总,也没什么办法减少计算量了。但有切片条件时,如果数据能合理组织,就未必要遍历所有数据了。 简单在维度上 ..
-
[图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [ ..
-
[图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片]
-
通过叉积过滤,计算矩阵相乘。 Matrix row col value [图片] 本例的数学公式如下: [图片] 使用 xjoin() 函数计算叉积,同时可以根据条件过滤。 脚本: A 1 = ..
-
最简单常见的是把几个列名列数列顺序完全一样的文件,纵向合并到一起。如: 合并前: Fruits.xlsx [图片] 和 Meats.xlsx [图片] 合并后: [图片] 实现代码: A 1 ..
-
[链接] [链接]9.6 备胎式容错 事先把数据加载进内存,能够获得比外存好得多的性能。数据量太大超出单机内存时,也可以利用集群的分机分段加载,同时分担计算量。我们前述的多机并行框架以及集群表 ..
-
[链接] [链接]5.1 有序分组汇总 如果数据表对分组键有序,可以实施有序分组算法。 有序分组的过程很简单,遍历时只要将当前记录和最后一个分组子集对比键值,如果相同,则将这条记录继续分到这个 ..
-
[链接] [链接]3.2 哈希索引 使用二分法去查找时,还是需要多次读取原文件才能定位到目标值,而且过程中还有不少读取是多余的。如果我们有办法高效地获得目标值的物理位置,那就可以直接读出目标值 ..
-
MAD 定义为,一元序列 Xi同其中位数偏差的绝对值的中位数 MAD=median(|Xi−median(X)|) 例如,使用MAD方法检测Fare变量的异常值,阈值取3.5 A 1 =fil ..
-
计算向量的最大最小值、平均值、中位数、众数、四分位数、极差、方差、标准差、偏度、标准误 A 1 [7,9,6,23,56,1,6] 2 =A1.max() 3 =A1.min() 4 =A1. ..
-
[链接] [链接]3.4 行存和带值索引 上一章讲过,列式存储是提高性能的常用手段。然而,对于大多数查找任务来讲,列存却会导致更差的性能。 即使已经有序存储了,通常的列存也可以认为就无法执行不 ..
-
DPO 即区间震荡线。移动平均线的形状,很像一条波浪状扭曲的绳子,股价在这条绳子的周围,上下来回穿梭。DOP>0 ,表示目前处于多头市场;DOP<0 ,表示目前处于空头市场。 计算 ..
-
[图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [ ..
-
震动升降指标 ASI 以开盘、最高、最低、收盘价与前一交易日的各种价格相比较作为计算因子,研判市场的方向性。 ASI 计算方式: AA=| 今日最高价 - 昨日收盘价 | BB=| 今日最低价 ..
-
2.1.1 MA 概念 MA(Moving average) 移动平均线,以道·琼斯的“平均成本概念”为理论基础,采用统计学中“移动平均”的原理,将一段时期内的股票价格平均值连成曲线,用来显示 ..
-
[链接] [链接]3.7 返回集合的查找 有时需要针对一个查找值可能查找多个目标值,比如通过用户 ID 查找出该用户的交易记录。 在用户 ID 上建立索引可以避免全遍历而提高查找性能,但仍然不 ..
-
[链接] [链接]9.7 多作业负载均衡 和单机上的多线程并行类似,第一节中讲述的多机并行框架也会等待最慢的分机返回结果后才会继续。我们可以尽量使分机计算的数据量更均衡,但并不能保证各分机执行 ..