计算&AI •
874 引用 •
936 回帖 •
446 关注
博客
关注
-
新出现的数据库产品通常会标榜自己的运算速度“最快”、“更快”,但在实际应用中却常常达不到让人满意的性能。因此,事先做好运算性能测试,是数据库选型成功的关键。很多用户对性能测试不熟悉,容易出现一 ..
-
流数据源通常是动态、无界的,看起来与静态、有限的批数据源区别较大,传统的数据库技术在架构上难以直接处理流数据源,只能让位于后来者。heron\samza\storm\spark\flink等计 ..
-
逻辑数据仓库技术允许用户在不搬迁原始数据的前提下将多种异构数据源进行逻辑上的融合,对外表现成数据仓库。逻辑数仓可以解决传统数仓数据搬迁导致的数据链路过长无法响应实时数据处理需求的问题,能够很好 ..
-
数据计算上云可以帮助企业降本增效,常见的方式是选用云数据仓库。当前几乎所有云数仓都是从传统数据仓库演变而来的,数据仓库诞生之初并没有上云的考虑,云数仓会面临存算分离、弹性扩展、Serverle ..
-
应用中有时会把某个数据库中的部分数据转储到另一个数据库,如果同类数据库且数据结构相同,则可以使用数据库DUMP工具来做。如果是异构数据库则一般会使用文本文件作为中介,但文本文件可能丢失数据类型 ..
-
做数据分析和人工智能运算前常常需要大量的数据准备工作,也就是把各种数据源以及各种规格的数据整理成统一的格式。因为情况非常复杂多样,很难有某种可视化工具来完成此项工作,常常需要编程才能实现。 业 ..
-
问题描述 灵活数据结构的意思是指数据表的每条记录的数据结构不相同。所有字段通常能分成为两部分,一部分是所有记录的共同字段,另一部分是各自不同的字段,其总数量可能多达数百种,但每条记录只占少数几 ..
-
为了获得更好的数据库计算性能,经常会采用 MPP 数据库,如 Greenplum、Vertica、IQ、TD Aster Data 等。MPP 有较好的性能,但应用成本很高。MPP 的硬件资源 ..
-
我们在《 http://c.raqsoft.com.cn/article/1600226611215 》(以下简称前文) 一文中介绍了如何使用历史数据进行商业预测的过程。不同的商业需求,还会有 ..
-
使用历史数据进行商业预测,首先我们要知道什么东西是能够被预测的,举几个例子: 银行放贷款时,希望预测出当前贷款人是否可能违约? 保险公司希望预测出客户的理赔风险,从而更灵活的制定保费,高风险高 ..
-
概述 集算器云服务是一款既可部署在云平台虚拟机,也可部署在本地的提供 SPL 计算的应用。管理多个 SPL 服务器,执行远程存储脚本文件时,会自动为 SPL 服务器分配任务实现云计算。 云服务 ..
-
在《 http://c.raqsoft.com.cn/article/1600226611215》(以下简称前文) 一文中我们介绍了如何使用历史数据进行商业预测的过程。不同的商业需求,还会有些 ..
-
一、问题提出 时间序列数据主要由电力行业、化工行业、气象行业、地理信息等各类型实时监测、检查与分析设备所采集、产生的数据,这些工业数据的典型特点是:产生频率快(每一个监测点一秒钟内可产生多条数 ..
-
SPL提供了两种方式连接数据库:JDBC/ODBC直连方式;JNDI连接池方式。 在Mysql中有一个MyCompany库,库里有employees表,下面尝试各种方式连接它。 [图片] 直连 ..
-
Excel是目前职场中应用最广泛的软件工具,各行各业都有大量“表哥表姐”们用它画表格,做计算。可以说,没有Excel,很多职场人员就无法正常工作。 不过,Excel也不是尽善尽美,它基本上没什 ..
-
1、 测试任务 本任务原型为某大型电器企业ERP系统中的产品库龄统计。 原始数据是如下的一对主子表: 库存表(store): 字段名 数据类型 字段含义 store 字符串 仓库ID prod ..
-
【摘要】 集算器 SPL 支持抓取网页数据,根据抓取定义规则,可将网页数据下载到在本地进行统计分析。具体定义规则要求、使 ..
-
一、 测试任务 电商业务中漏斗分析是常见的统计需求。用户使用智能设备购物时,系统会建立连接形成会话 session。每个会话又包含很多个操作事件 event,比如:访问网站,浏览产品页,下单购 ..
-
一、 测试任务 基于位置计算两个实体之间的距离,进而决定是否建立关联关系。这是典型的非等值关联运算,此时不能再使用 HASH 方法来优化。 任务原型来自国家天文台的星体聚类运算,经过简化后描述 ..
-
DT时代,数据作为一种资产越来越受到重视,各行各业都积累了不少的历史数据。然而沉淀的数据只是资源,只有用起来,数据的价值才能释放。如何盘活数据资产,让历史数据中的价值充分发挥显得尤为重要。 数 ..
-
一、 测试任务 现代商业智能中,指标分析的页面常常会同时呈现出很多个统计指标,这些指标大都从同一个数据集(比如宽表)中计算出来,使用相同的过滤条件,对关心的测度字段按多个(可能几十个)不同维度 ..
-
使用集算器桌面版的Excel插件,可在Excel中执行SPL脚本并获得结果集后填充到Excel中。 第 1 章 安装与配置 1 、环境 要求64位的Windows和Excel,不能用32位的, ..
-
一、 测试任务 多维分析中常见的事实表和多个及多层维表的关联后按维度的汇总统计,以及宽表按维度的统计。 基于TPCH 100G数据集,设计大事实表和多个维表关联的运算: 1. 一个事实表和一个 ..
-
客户信息标签化,即客户画像,是指通过收集客户的社会属性、消费习惯、偏好特征等各个维度的数据,进而对客户或者产品特征属性进行刻画,并对这些特征进行分析、统计,挖掘潜在价值信息,从而抽象出客户的信 ..
-
除了常见的静态代码外,有时候也需要用动态代码解决问题,比如根据参数生成代码(或一部分)并动态执行。对于缺乏动态代码机制的程序语言,通常要将代码的可变部分写成字符串形式,比如Python中的引用 ..