计算&AI  • 
                                    982 引用   • 
                                    1070 回帖  • 
                                    467  关注
                                	
                                
                        
                        博客
                     
                    
                        关注
                                        
                 
                
                
                
                
             
            
                
                
                
                
    
- 
    
        
            
            Elasticsearch 是一个分布式搜索服务器,它提供了Restful API更新数据、搜索数据。提交的数据、搜索结果都是JSON格式,计算引擎语言SPL有json()函数解析JSON字符 ..
         
     
    
        
    
 - 
    
        
            
            SQL计算能力较强,在JAVA开发中广泛应用于结构化数据计算,但SQL深度绑定数据库,存在架构性缺陷,包括计算代码难以移植、业务逻辑不支持热切换、计算性能无法低成本扩展等。现代应用架构更推崇在 ..
         
     
    
        
    
 - 
    
        
            
            使用集算器桌面版的Excel插件,可在Excel中执行SPL脚本并获得结果集后填充到Excel中。 第 1 章 安装与配置 1 、环境 要求64位的Windows和Excel,不能用32位的, ..
         
     
    
        
    
 - 
    
        
            
            InfluxDB是时序数据库,数据存储在它的bucket中,多个bucket又组成一个organization。每条数据由measurement、多个维度、多个字段值、时间戳构成: airSe ..
         
     
    
        
    
 - 
    
        
            
            部分预汇总 多维分析后台的运算本质是分组汇总,可以直接对数据执行这个计算。但是,当数据量非常大的时候,很难做到即时响应。 预汇总是个容易想到的办法,即事先把各种汇总结果计算好,保存为中间结果( ..
         
     
    
        
    
 - 
    
        
            
            业务逻辑由数据库读写、结构化数据计算、流程处理组成。SQL的设计初衷就是数据库读写和结构化数据计算,解决这两部分相对轻松,但因为缺乏流程处理语句(循环、判断),SQL难以独自实现完整的业务逻辑 ..
         
     
    
        
    
 - 
    
        
            
            中间表是数据库中专门存放中间计算结果的数据表,往往是为了前端查询统计更快或更方便而在数据库中建立的汇总表,由于是由原始数据加工而成的中间结果,因此被称为中间表。在某些大型机构中,多年积累出来中 ..
         
     
    
        
    
 - 
    
        
            
            ETL 是将数据从来源端经过清洗(extract)、转换(transform)、加载(load)至目的端的过程。正常的 ETL 过程应当是 E、T、L 这三个步骤逐步进行,也就是先清洗转换之后 ..
         
     
    
        
    
 - 
    
        
            
            大数据表关联时,有时会先对关联表做条件过滤。对于关联字段是主键或者部分主键的情况,SPL 在有序归并关联算法(参考这里)的基础上提供关联定位算法,来提升过滤后关联的计算性能。 先来看关联表按照 ..
         
     
    
        
    
 - 
    
        
            
            JAVA开发中经常会遇到不方便使用数据库,但又要进行结构化数据计算的场景。JAVA早期没有提供相关类库,即使排序、分组这种基本计算也要硬写代码,开发效率很低。后来JAVA8推出了Stream库 ..
         
     
    
        
    
 - 
    
        
            
            在大数据表关联场景中,如果各个表按照主键或部分主键关联,我们可以采用 SPL 附表机制来做性能优化。 附表机制是将上述要关联的表绑在一起存储。以客户表 customer 和联系方式表 cont ..
         
     
    
        
    
 - 
    
        
            
            [链接]文本为什么更慢? 文本文件慢的原因,主要在于会多出很多数据类型解析的动作。 举个例子,设想一下把文本“12345' 转成内存二进制整数 12345 的过程: 1. 先设结果的初始值为  ..
         
     
    
        
    
 - 
    
        
            
            大表关联常常会出现性能问题。对于关联字段是主键或者部分主键的情况,SPL 提供有序归并算法来计算。 有序关联算法,要事先把这些关联表的数据按其主键排序。排序的成本虽然较高,但是一次性的。一旦完 ..
         
     
    
        
    
 - 
    
        
            
            大数据计算场景下,很多比较复杂的算法都会产生落地的中间结果,出现对外存的读写,从而影响性能。   例如,帐户交易表 trades 包含帐号 id,交易日期 dt 和交易金额 amou ..
         
     
    
        
    
 - 
    
        
            
            Kafka是一种分布式的信息流平台,它的客户端分为生产者、消费者两种,生产者提交数据,消费者读取数据。Kafka中传递的事件消息没有固定格式,消费者、生产者自由约定一些个性化格式,比如是JSO ..
         
     
    
        
    
 - 
    
        
            
            遍历复用的原理 对外存数据表做遍历计算时,大部分时间都用来从硬盘上读取数据了。所以我们会希望一次读取能做尽量多的事情,也就是尽量做到能复用遍历过程中读出来的数据。   比如我们对订单 ..
         
     
    
        
    
 - 
    
        
            
            结构化数据查询中,常常会遇到全文检索的需求。比如,在国家表中,查找 Ch 开头的国家;或者在“帖子”表中,查找“内容”字段包含 water 的记录。 面向搜索的全文检索虽然能解决这个问题,但不 ..
         
     
    
        
    
 - 
    
        
            
            Cassandra是一种分布式的NoSQL数据库。JAVA中可以使用DataStax执行Cassandra的CQL,CQL语言能简单地维护、读写数据,但不支持关联、分组聚合等操作,计算能力比关 ..
         
     
    
        
    
 - 
    
        
            
            外存索引是在原表之外建立的,被查找字段值和原表记录物理位置的关联表。在查找时,用指定值从这个关联表中迅速获得原表物理位置,再去读取原表记录。 这样,索引中会存储很多被查找字段值。要在其中找到指 ..
         
     
    
        
    
 - 
    
        
            
            现代信息系统多数据源的情况很常见,尤其分析型应用经常要跨多数据源混合计算实现数据统计分析。由于数据源种类众多,有 RDB,也有 NoSQL,还有 CSV、Excel 等文件,JSON、XML  ..
         
     
    
        
    
 - 
    
        
            
            在数据分析时,经常遇到内存无法放下的数据,需要借助硬盘完成数据分析,本文对比 Python 和 SPL 对这种数量级数据的运算分析能力,至于更大级别如  ..
         
     
    
        
    
 - 
    
        
            
            业务逻辑经常包含较复杂的流程和计算,同时涉及数据库的读写。由于授权麻烦、影响数据库安全、无法迁移、技术要求高、编写困难等原因,很多场景不适合用存储过程实现业务逻辑。因为不擅长复杂的流程处理,S ..
         
     
    
        
    
 - 
    
        
            
            使用数据库存储数据很常见,数据库不仅提供了多种存储策略,还可以满足数据一致性的要求,基于数据库还能很方便完成数据计算,但使用数据库存储数据也有一些缺点,在一些场景下并非最佳选择。与数据库相对的 ..
         
     
    
        
    
 - 
    
        
            
            《Python和 SPL对比系列 10——一对 N关联》介绍了关联关系中的一对一和一对 N 关联,本文对比 Python 和 SPL 多对一关联的运算能 ..
         
     
    
        
    
 - 
    
        
            
            FTP是常用的文件传输服务。JAVA虽然也提供了从FTP server读写文件的接口,但用起来不够便捷,因此,SPL进一步地提供了方便函数。 创建/ 关闭FTP 连接 使用方式类似关系数据库的 ..