计算&AI •
874 引用 •
936 回帖 •
446 关注
博客
关注
-
大数据计算场景下,很多比较复杂的算法都会产生落地的中间结果,出现对外存的读写,从而影响性能。 例如,帐户交易表 trades 包含帐号 id,交易日期 dt 和交易金额 amou ..
-
在分组时,我们经常需要把满足同一个条件的记录分配到同一组中。比如根据城市人口将城市分为大、中、小型城市,根据年收入将家庭分为富裕、中产、小康、贫困等等。根据 ..
-
现代信息系统多数据源的情况很常见,尤其分析型应用经常要跨多数据源混合计算实现数据统计分析。由于数据源种类众多,有 RDB,也有 NoSQL,还有 CSV、Excel 等文件,JSON、XML ..
-
业务逻辑经常包含较复杂的流程和计算,同时涉及数据库的读写。由于授权麻烦、影响数据库安全、无法迁移、技术要求高、编写困难等原因,很多场景不适合用存储过程实现业务逻辑。因为不擅长复杂的流程处理,S ..
-
日常工作中,经常需要把多个 Excel 文件的数据合并到一起,便于做各种统计分析。 1 纵向合并 - 列名列数相同 最简单常见的 ..
-
Kafka是一种分布式的信息流平台,它的客户端分为生产者、消费者两种,生产者提交数据,消费者读取数据。Kafka中传递的事件消息没有固定格式,消费者、生产者自由约定一些个性化格式,比如是JSO ..
-
SQL,在数据处理和分析领域基本上类似“普通话”的地位,几乎是一项必备的能力,但是要使用 SQL,又离不开关系数据库系统,也就是 RDBMS,这就好比普通话主要还是得在中国说才管用。当然,如果 ..
-
先说观点:因为还没找到更好的。 接下来说原因,首先来看看大数据平台都在干什么。 原因 结构化数据计算仍是重中之重 大数据平台主要是为了应对海量数据存储和分析的需求,海量数据存储的确不假,除了生 ..
-
Cassandra是一种分布式的NoSQL数据库。JAVA中可以使用DataStax执行Cassandra的CQL,CQL语言能简单地维护、读写数据,但不支持关联、分组聚合等操作,计算能力比关 ..
-
在数据分析时,经常遇到内存无法放下的数据,需要借助硬盘完成数据分析,本文对比 Python 和 SPL 对这种数量级数据的运算分析能力,至于更大级别如 ..
-
《Python和 SPL对比系列 10——一对 N关联》介绍了关联关系中的一对一和一对 N 关联,本文对比 Python 和 SPL 多对一关联的运算能 ..
-
针对存储过程优缺点的讨论(争论)由来已久,这里我们不妨来详细盘点一下存储过程的利与弊。 先说优点 毕竟还是有不少人在用,总要有点好处。 SQL 过程化 很少人提及存储过程的这个优点,似乎是认为 ..
-
1 单个行式文本文件转换成Excel 行式文本中一行对应一条数据,是很常见的文件格式,比如下面这个水果价格表。 文件名【Fruits.txt ..
-
大数据通常是需要外存的,要实现外存并行计算必须有较好的数据分段技术。也就是能方便的把数据拆分成若干部分,让每个线程或进程分别处理。 SPL 采用倍增分段技术,实现了单文件可追加分 ..
-
使用数据库存储数据很常见,数据库不仅提供了多种存储策略,还可以满足数据一致性的要求,基于数据库还能很方便完成数据计算,但使用数据库存储数据也有一些缺点,在一些场景下并非最佳选择。与数据库相对的 ..
-
两个大表做关联,常常会出现性能问题。其中比较常见的一种情况,是用一个大表的非主键字段,去关联另一个大表的主键。例如:订单表 orders 和客户表 customer 都很大,内存无法装下。订单 ..
-
FTP是常用的文件传输服务。JAVA虽然也提供了从FTP server读写文件的接口,但用起来不够便捷,因此,SPL进一步地提供了方便函数。 创建/ 关闭FTP 连接 使用方式类似关系数据库的 ..
-
报表查询分析都要涉及数据准备,就是把原始数据加工成可以呈现或分析的形式(如常见的报表数据集)。不过,数据准备经常并不轻松,可能面临各种复杂的情况。 数据准备面临的挑战 多样性数据源 当前业务的 ..
-
【摘要】 排号键是 SPL 独特的数据类型,适合替代多层次、各层不连续的键值,比如身份证号、合同编号、产品编号、组织机构代码等。排号键定位速度快,常用于优化内存索引查询和外键关联计算。点击 $ ..
-
数据分析中,经常会遇到两表或多表关联,表间关联关系可以分为以下几种:一对一、一对多、多对一和多对多。一对一关联,是指一张表的一条记录只与另外一张表的一条记录对应;一对多关联,是指一张表的一条记 ..
-
Redis是K-V数据库,value可以是String、Hashmap、List、Set、Sortedset。针对每种value提供了一系列不同的操作命令,加上一些管理命令,总计三百多个。这些 ..
-
分组后再汇总,通常会得到一个比原集合更小的集合,相当于做了聚合;逆分组相当于分组的逆运算,用一个较小的数据表通过某种规则计算出一个更大的数据表;转置也就是常说的行转列,相当于是分组的变种,逆转 ..
-
人们对序运算天然是感兴趣的,分组运算也会涉及到次序。本文对比 Python 和 SPL 在有序分组的运算能力。 位置分组 成员的位置信息可能参与分组计算 ..
-
通常的分组都是等值分组,有以下几个特点: 1) 原集合的所有成员都在且只在唯一的组中; 2) 没有一个组是空集; 满足这种特点分组在数学上又称为完全划分。 那么是不是还有不完全划分呢? 是的, ..
-
随着微服务的流行,越来越多应用采用微服务架构开发。如何简单高效地在微服务中完成数据处理成为大家不得不面对的问题。以往单体应用架构下,我们可以借助数据库实施计算,SQL 是专用的集合计算语言,依 ..