计算&AI •
902 引用 •
973 回帖 •
449 关注
博客
关注
-
结构化文本也就是行式文本文件,是很常见的文件格式,比如TXT、CSV。结构化文本文件通常每行对应一条记录,各行有相同的列,相当于数据库中的一张数据表。读写时需要注意如下一些问题: 1、&nbs ..
-
集算器SPL语言中提供了httpfile函数用于读取HTTP页面的数据。但为了数据的安全性,有些服务器会对访问数据者的身份进行认证,只有通过认证的访问才能读取到页面数据。常用的身份认证分为两大 ..
-
1. 过滤 从数据表中筛选出满足条件的记录。 示例:从学生成绩表Students_scores.txt中筛选出10班的学生成绩,文件中第一行是列名,第二 ..
-
【摘要】 本文介绍直接用 SQL 查询文件数据的各种情况,并用 esProc SPL 举例实现。请点击 ${article} 了解详情 在数据分析业务中经常要处理数据文件。我们知 ..
-
【摘要】 本文介绍小文件与大文件在进行数据去重时的几种处理办法,比如按整行或关键列去除重复数据或留下重复数据,并用 esProc SPL 举例实现。请点击 ${article} 了解详情 &n ..
-
【摘要】 本文介绍两个文本文件进行比对,按照需求找出文件中数据相同或不同时,会遇到的几种情况,并用 esProc SPL 举例实现。请点击 ${article} 了解详情 在数据 ..
-
【摘要】 本文介绍将多个文本文件和 Excel 文件合并成一个文件,或者将一个文件拆分成几个小文件时,如何处理会遇到的几种情况,并用 esProc SPL 举例实现。请点击 ${article ..
-
【摘要】 本文介绍如何将各种结构的 Excel 文件解析成结构化数据,如普通行式、复杂表头、自由格式、交叉表、主子表、大文件等,并用 esProc SPL 举例实现。请点击 ${article ..
-
【摘要】 本文分析大文件计算的实现原理,如过滤、聚合计算、添加计算列、排序、分组聚合、topN 等,以及利用并行计算来提高计算速度,并用 esProc SPL 举例说明如何用简洁的脚本实现大文 ..
-
【摘要】 数据分析师经常要处理 Excel 文件,有时需要用程序来自动化处理,有几种脚本语言都可以解析 Excel 文件,本文从编程解析 Excel 的难易程度、对不同数据格式的适应性等方面, ..
-
【摘要】 数据分析时,难免会遇到内存装不下的大数据文件,如何对大文件进行查询计算?本文分析比较了几种常用办法的优缺点,集算器 SPL 是其中最适合数据分析师用于处理大文件的脚本。请点击 ${a ..
-
一、 问题背景与适用场景 在对数据集进行排序运算时,有时会遇到这样一种场景:数据集T已经按字段a有序,而字段b无序,现在我们要将T按a、b排序,我们称之为前半有序(a ..
-
一、 问题背景与适用场景 什么是后半有序?如果数据集T已经按字段a、b有序,现在我们要将T按b排序或分组时,因为在a值相同的段内,b都是有序的,这种要排序或分组的字段 ..
-
一、 问题背景与适用场景 通常分组计算都采用hash方案,即先计算分组字段的hash值,hash值相同的记录被分拣到一个小集合里,然后在这个小集合中遍历找分组字段值相 ..
-
一、 问题背景与适用场景 在《[链接]》中,我们尝试了小事实表与大维表关联时的性能优化方法,该方法利用了小事实表可以装入内存的特点,将关联键汇集排序后到大维表中查找, ..
-
一、 问题背景与适用场景 在主子表关联查询中,有时会遇到这样一种情况:按条件过滤后的事实表数据量很小,能够全部装载进内存或仅比内存略大一点;而要关联的维表数据量很大, ..
-
一、 问题背景与适用场景 在《[链接]》中我们见证了有序归并算法提升主子表的关联性能,在集算器中,还有进一步提高性能的办法—附表。集算器组表支持主子表保存在同一文件中 ..
-
一、 问题背景与适用场景 在《[链接]》中我们验证了有序归并算法提高关联性能的效果,那么还有没有进一步提升的空间呢?能不能再减少数据的读取量从而再提速呢? 通常主子关 ..
-
一、 问题背景与适用场景 在以前的文章中我们介绍过,关系数据库在进行表间关联时是使用HASH分段技术。设两个关联表的规模(记录数)分别是 N 和 M,则 HASH 分 ..
-
在事实表与维表的关联查询时,常常会遇到需要对维表的数据进行过滤或者针对维表做计算的情况,这时可以有两种处理方式: 1、先做关联(如果是内存则可以是预关联),再对关联后的事实表进行过滤。就象在《 ..
-
一、 问题背景与适用场景 在《[链接]》一文中,我们介绍了将维表内存化并预关联的技术,但事实表与维表关联时,仍需进行hash计算和比对,怎么提高这一步的性能呢?我们今 ..
-
一、 问题背景与适用场景 在《[链接]》中,我们测试了将数据表事先全部加载进内存并做好关联后的查询性能优化问题,但如果内存不够大,不能将维表和事实表全部装入,那怎么办 ..
-
一、 问题背景与适用场景 SQL中JOIN的性能是个老大难问题,特别是关联表较多时,计算性能会急剧下降。 SQL实现JOIN一般是采用HASH分堆的办法,即先计算关联 ..
-
在《[链接]》中我们测试过 Oracle的JDBC读出性能,现在再来测试一下写入情况。 1. ..
-
[图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片]