图书 •
828 引用 •
214 回帖 •
3 关注
博客
关注
-
[链接] [链接]4.4 数据库并行加载 有时我们需要从数据库中读出数据进行复杂运算,常常会发现数据库负载并不重的时候,读出数据的时间却很长。这主要是由于数据库的访问接口性能较差导致的,使用并 ..
-
http://c.raqsoft.com.cn/article/1615762149295 4.3 并行遍历 我们在第二章讲过外存数据集分段的方法,它不仅可以用于二分法查找,更重要的是可以用于 ..
-
[链接] [链接]4.2 遍历复用 我们知道,外存数据表的遍历运算中读取时间占比非常大,但读取又不可以避免,所以我们会希望一次读取能做尽量多的事情,也就是尽量做到能复用遍历过程中读出来的数据。 ..
-
[链接] [链接]4.1 游标过滤 使用索引或利用有序可以高速查找记录,但建立和维护索引以及保持数据有序的成本并不低,我们不可能预先为所有查询条件建立索引,必须时还要使用顺序查找,也就是遍历。 ..
-
http://c.raqsoft.com.cn/article/1615504551386 3.9 全文检索 在结构化数据查询时常常会查找某字符串字段是否含有某确定子串的记录。如果是形如 li ..
-
[链接] [链接]3.8 多索引归并 我们在前几节解释过多个索引不能同时使用,对两个字段分别建立索引后,在针对这两上字段的联合条件查询也只能使用其中一个索引,而另一个字段的条件仍然要遍历。 其 ..
-
[链接] [链接]3.7 返回集合的查找 有时需要针对一个查找值可能查找多个目标值,比如通过用户 ID 查找出该用户的交易记录。 在用户 ID 上建立索引可以避免全遍历而提高查找性能,但仍然不 ..
-
http://c.raqsoft.com.cn/article/1615244188566 3.6 批量查找 前面讨论的查找主要是单个查找值,如果同时有多个查找值,是否只要简单重复多次就可以了 ..
-
[链接] [链接]3.5 索引预加载 我们知道,大数据的索引经常也很大,需要建立多级索引,每次查找时都要一级一级地读入,才能最终定位到目标值。因为外存访问的复杂度很高,即使有操作系统的缓存能避 ..
-
[链接] [链接]3.4 行存和带值索引 上一章讲过,列式存储是提高性能的常用手段。然而,对于大多数查找任务来讲,列存却会导致更差的性能。 即使已经有序存储了,通常的列存也可以认为就无法执行不 ..
-
[链接] [链接]3.3 排序索引 外存中更常见的是排序索引。 哈希索引只能针对查找值做等值查找,即判断条件是相等,而不能做区间查找,即判断条件是被查找键在一个指定区间。而且,哈希索引在运气不 ..
-
[链接] [链接]3.2 哈希索引 使用二分法去查找时,还是需要多次读取原文件才能定位到目标值,而且过程中还有不少读取是多余的。如果我们有办法高效地获得目标值的物理位置,那就可以直接读出目标值 ..
-
[链接] [链接]3.1 二分法 如果文件中存储的外存数据表中的记录对被查找键有序,只要这种文件格式可以支持较随意的分段,我们就可以实施外存二分法查找,以避免顺序遍历整个文件。 先将文件分成两 ..
-
[链接] [链接]2.7 数据更新 前面只讨论了外存数据表中如何追加数据,而没有涉及如何修改。 我们一直在努力把数据尽量紧凑且连续存储,目的是为了减少硬盘存储量以减少读取时间。而紧凑存储后就无 ..
-
[链接] [链接]2.5 有序及数据追加 即使不减少存储量,有序存储对于查找和遍历也有巨大的意义,我们会后面会逐步讲到如何利用有序提高运算性能。 A 1 =file('data.ctx').c ..
-
[链接] [链接]2.4 组表与列存 文本文件和集文件都是依次存入每条记录,这种方式称为行式存储(简称行存)。 大多数运算都不会使用到数据表的所有字段,由于硬盘必须成块的读取,这导致在行存方式 ..
-
[链接] [链接]2.3 数据类型 使用二进制文件后,我们可以采用更优化的编码方案。 一个整数在计算机可能占 4 字节或 8 字节,原则上存储到文件中也是这个大小。但是,其实有相当一部分整数并 ..
-
[链接] [链接]2.2 集文件及倍增分段 文本文件使用字符来编码数据,通用性虽然比较好,但性能很差。要把字符转换成可以计算的数值,还需要较多的运算量,日期时间类数据还需要很复杂的解析判断过程 ..
-
[链接] [链接]2.1 文本文件分段 性能问题常常都和数据量大相关,而大数据通常不能在内存中放下,我们要考虑外存数据的运算方案。数据库可能是最常见的外存数据存储方案,但我们无法在数据库中实施 ..
-
[链接] [链接]1.5 多层序号定位 前面讲过,不能针对身份证号直接使用序号定位的方法。但在某些特定情况下,还有变通的手段。 我们仍以用身份证号查找人员为例。如果待查找人群具有一些共同的特征 ..
-
[链接] [链接]1.4 哈希索引 哈希索引可以理解为序号定位的延伸。 使用某个函数将被查找键值计算成一个 1…M 之间的自然数,称为该记录的哈希值,此函数称为哈希函数。将序表 T 的记录按哈 ..
-
[链接] [链接]1.3 位置索引 有时候我们希望查找出目标值在序表中的位置,而不是目标值本身。如果序表对被查找键无序时,就无法使用二分法来提高性能了。事先把数据按被查找键排序后可以使用二分法 ..
-
[链接] [链接]1.2 序号定位 有时被查找键的取值正好是目标值在序表中的序号(即位置),或者很容易通过查找值计算出目标值的序号,这时可以使用序号定位方法。 A 1 =10000.new(~ ..
-
[链接] [链接]1.1 二分法 内存中的序表 T 有字段 K,给定查找值k,找出 T 中字段 K 取值为 k 的记录,字段 K 称为被查找键,找到的记录称为目标值或目标记录。 常规的顺序查找 ..
-
[链接]前言 大数据的技术本质就是高性能,有了足够的性能,大数据分析才能实实在在地落地。 性能优化要在确定有限的硬件条件下实施,软件并不能改变硬件的速度,我们能做的是设计更低复杂度的算法,使实 ..