计算&AI •
874 引用 •
936 回帖 •
446 关注
博客
关注
-
1 、前言 大数据技术催生了一些列式存储格式,合适的存储方案是高性能计算的基础。本文主要从应用角度上对比三种开源的列存文件:esProc 组表、ORC 和 Parquet 在数据压缩和读取方面 ..
-
1. 前 言 在 snowflake 云环境下,用户可搭建集算器 SPL 应用程序包开发环境、生成 App 安装包。用户安装 App 后,通过 SPL 函数接口调用集算器进行数据运算,将计算结 ..
-
[链接]SPL 超越 SQL 性能的关键点 在性能优化案例中,SPL 常常能跑出比 SQL 高出数量级的性能。对此,我们的解释是 SPL 能写出 SQL 写不出来的低复杂度算法,计算量更小,性 ..
-
基本面选股条件: 1. 毛利润率不低于30%; 毛利润率=(营业收入-营业成本)/营业收入 2. 净利润率不低于15%; 净利润率=净利润/营业总收入 3. 优化净资产收益率大于等于20%; ..
-
OLAP 业务的数据一般不会出现大量频繁地更新动作。数据变动主要是:1、新增数据的追加,2、数据插入、修改和删除。 SPL 提供了复组表,可以有效缩短数据变动的处理时间,同时保证数据计算的性能 ..
-
1. 前言 利用AWS Lambda函数,可以运行代码而无需预置或管理服务器,可以直接从任何Web或移动应用程序调用函数获得运算结果,是非常便利的函数服务。在函数代码中可以读取业务数据,进行复 ..
-
概述 数据维护例程可以实现数据的定期维护和更新,对于实时热数据,只能在查询的时候临时读取,再和历史数据归并后返回。 这就要求实时热数据的查询能快速返回结果,且能接受频繁的并发访问,这对业务系统 ..
-
早期还有些人使用C++,Java开发量化交易的策略模型,但目前这个领域几乎被Python垄断了,原因大概有以下两点: Python的语法便捷,操作界面也简单易学,毕竟量化分析师还不是职业的程序 ..
-
概述 组表是SPL重要的文件存储格式。为保证高性能,组表常常要求数据有序存储,但数据的产生次序通常和组表要求的次序不同,在维护组表数据时需要调整数据的次序。另外,组表在写入时不能同时读取,而有 ..
-
问题描述 在 A 电商公司,漏斗转化率分析是常用且重要的统计需求。 用户使用智能设备购物时,系统会建立连接形成会话 session。每个会话又包含很多个操作事件 event,比如:访问网站,浏 ..
-
问题描述 发电设备中会放置传感器(DCS)来采集数据以监控设备运转的状况,某集团设计的电力监控统计系统,需要按固定频率实时采集多个传感器(以下称为测点)上测量的数据后保存,然后提供按任意时间区 ..
-
esProc 弹性计算是运行在局域网或私有云的企业内通用计算软件,分成三个部分,服务端由 QVA 和 QVM 构成,应用端由应用程序(以下简称 APP)和 QVS 组成,存储端是 NFS、HD ..
-
问题描述 漏斗分析定义 电商业务中漏斗分析是常见的统计需求。用户使用智能设备购物时,系统会建立连接形成会话 session。每个会话又包含很多个操作事件 event,比如:访问(visit)类 ..
-
问题描述 数据结构与规模 客户 - 维度表 cust_dim 字段名称 字段类型 字段注释 示例数据 id Number 客户号 18765 d1 Number 维度 1 12 … … … … ..
-
问题描述 时空碰撞定义 数据集A中有n个源对象A1,…,An的时空信息,每条信息有三个属性,分别是ID(iA)、位置(lA)、时间(tA),可以认为同一个Ai在A中不会同时出现两次,即没有两条 ..
-
实践背景 通过 RESTful 交换数据很方便,但接收数据后如何继续计算会有点麻烦。SPL 提供了 HTTP 接口,可以直接读取 RESTful 的数据后进行计算。 如下例,电商业务中订单数据 ..
-
问题描述 系统结构 前端应用是 BI 系统,主要实现条件过滤查询,后台是某 MPP 数据库。前端根据用户在页面上的选择、操作来生成针对宽表 ordes(订单表)的 SQL 提交给后台,并展现后 ..
-
全局变量 在 SSC 环境中,有时需要在多个 QVM 上的计算任务(QVM 脚本)之间共享信息,这时可以使用 SSC 全局变量(以下简称全局变量)。全局变量由 QVS 管理,通过 QVS 申请 ..
-
实时追加例程—用内存避免小分表 背景与方法 参考下面文章 [链接] 该文章中采用多层分表的方式存储实时数据,对于数据追加频繁的场景,为了保证新数据能快速及时写出,采用了较短时间区间的小分表,这 ..
-
问题描述 时空碰撞定义 某时间区间(例如7天)被分成多个固定时长(如15分钟)的时间切片,对象a和对象b在同一时间切片内的相同位置出现过,称为一次碰撞。 规则1:相同时间切片内,多次碰撞只记一 ..
-
内存列式计算 什么是列式存储 内存中的序表,一般是采用行式存储。例如员工表包含字段 id、name、birthday,在内存中大致是这样存储的: [图片] 每行(也就是每条记录)存成一个 Ob ..
-
在报表、BI、跑批等数据分析业务中,性能不足时经常会想到内存数据库。所谓内存数据库是指全量数据永驻内存,计算时不需要从外存(硬盘)读取,避免磁盘 IO,可以有效提升数据处理性能。 内存数据库被 ..
-
基于 SSC 上的应用程序可以分成两个部分,服务端由 QVA 和 QVM 构成,应用端由应用程序(以下简称 APP)和 QVS 组成。这两部分都有会涉及 SPL 脚本。服务端的 SPL 脚本在 ..
-
异构库的数据比对是指分别在不同类型数据库中的两张逻辑结构相同的数据表,进行数据比较,找出差异。 问题描述 数据对比的难点在于异构数据库间的数据类型和数据库本身在处理数据上存在的差异,这会导致同 ..
-
使用SPL进行性能优化,在数据转存时将字符串等数据类型转换成整数,可以减少存储空间并提升计算性能,下面我们通过一个实际例子学习如何实现整数化。 问题描述 某时空碰撞问题的数据结构如下 字段名称 ..