计算&AI •
796 引用 •
800 回帖 •
419 关注
博客
关注
-
一、 测试任务 电商业务中漏斗分析是常见的统计需求。用户使用智能设备购物时,系统会建立连接形成会话 session。每个会话又包含很多个操作事件 event,比如:访问网站,浏览产品页,下单购 ..
-
一、 SQL 及分析 查询SQL语句如下: select l_returnflag, l_linestatus, sum(l_quantity) as sum_qty, sum(l_exten ..
-
业务逻辑由数据库读写、结构化数据计算、流程处理组成。SQL的设计初衷就是数据库读写和结构化数据计算,解决这两部分相对轻松,但因为缺乏流程处理语句(循环、判断),SQL难以独自实现完整的业务逻辑 ..
-
Ymodel,Weka和Rapidmine Studio(以下统一简称Rapidminer)是三款自动建模做的都不错的产品,在 Ymodel-Weka-Rapidminer 自动建模效果对比一 ..
-
随着数据量不断增长和业务复杂度逐渐攀升,数据处理效率面临巨大挑战。最典型的表现是面向分析型场景的数据仓库性能问题越来越突出,压力大、性能低,查询时间长甚至查不出来,跑批跑不完造成生产事故等问题 ..
-
[图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [ ..
-
通常的分组都是等值分组,有以下几个特点: 1) 原集合的所有成员都在且只在唯一的组中; 2) 没有一个组是空集; 满足这种特点分组在数学上又称为完全划分。 那么是不是还有不完全划分呢? 是的, ..
-
一、 SQL 及分析 查询SQL语句如下: select * from ( select c_name, c_custkey, o_orderkey, o_orderdate, o_total ..
-
目标任务 用户事件表T结构和部分数据示例如下: Time UserID EventType … 2022/6/1 10:20 1072755 Search … 2022/6/1 12:12 1 ..
-
目标任务 用户事件表T结构和部分数据示例如下: Time UserID EventTypeID ProductID Quantity 2022/6/1 10:20 1072755 3 1000 ..
-
索引类似于原表的 '目录',是在原表之外,另外建立的存储结构。在做查找计算时,先查索引,在 '目录' 中找到原表的位置,再去原表找到对应的记录。查索引比查原表快的越多,索引提速的效果越明显。 ..
-
当事物比较多时,人们习惯将这些事物分类,然后再做聚合运算。如查看学校各班级的最高成绩,查看公司员工各部门的平均年龄等,这种运算称为分组,大多数分组也会伴随着下一步的聚合运算。最常见的分组是将属 ..
-
递归运算是指直接或者间接地调用自身的运算方法。比如我们熟悉的汉诺塔问题,就是典型的递归运算。在实际应用中递归查询问题也很常见,比如我们想知道某个部门有哪些上 ..
-
宽表经常是 BI 系统的标配,很多 BI 项目在建设之初首先就会准备宽表。宽表是将有一定关联关系的多个表连接成一个表,结果集不符合范式要求,会存在大量数据冗余。同时宽表由于需要事先建立,在使用 ..
-
问题提出 工业生产过程中会产生大量的数据,比如电压、温度、流量等等,不同的工况条件下,数据的走势不同,比如产量稳定时,流量走势平稳,产量增加时,流量势必也会增加,体现在图像上就是流量曲线上升。 ..
-
FTP是常用的文件传输服务。JAVA虽然也提供了从FTP server读写文件的接口,但用起来不够便捷,因此,SPL进一步地提供了方便函数。 创建/ 关闭FTP 连接 使用方式类似关系数据库的 ..
-
算法背景 之前介绍了有边界的线性拟合算法,《有边界的线性拟合算法》,它的约束条件是所有系数都须在[0,1]范围内,但实际生产环境不仅仅是这个基本的限制。 已知条件 自变量矩阵X,在生产环境中称 ..
-
一、 SQL 及分析 查询SQL语句如下: select cntrycode, count(*) as numcust, sum(c_acctbal) as totacctbal from ( ..
-
数据分析中,经常会遇到两表或多表关联,表间关联关系可以分为以下几种:一对一、一对多、多对一和多对多。一对一关联,是指一张表的一条记录只与另外一张表的一条记录对应;一对多关联,是指一张表的一条记 ..
-
跑批提速是SPL的一个主要优化场景,把跑批数据转储到SPL的高性能文件是优化过程中的重要环节。需要被转储的数据,通常包括两部分:历史冷数据和周期性增量数据(增删改)。下面介绍如何把历史与增量数 ..
-
在统计分析应用中,从明细数据计算出来的各种指标是支撑业务的重要数据。但是,要做到快速而且灵活的多指标计算,后台数据源面临多个难题。 多指标计算的一个难题是涉及的明细数据量非常大。政府、金融、能 ..
-
使用SPL进行性能优化,在数据转存时将字符串等数据类型转换成整数,可以减少存储空间并提升计算性能,下面我们通过一个实际例子学习如何实现整数化。 问题描述 某时空碰撞问题的数据结构如下 字段名称 ..
-
1、 测试任务 本任务原型为某大型电器企业ERP系统中的产品库龄统计。 原始数据是如下的一对主子表: 库存表(store): 字段名 数据类型 字段含义 store 字符串 仓库ID prod ..
-
转置功能常用报表等前端展现,将查询出来的数据转置成指定的显示格式。比如行转列,列转行,以及比较复杂的动态转置等等。在《SPL:静态转置》一文中,我们为大家介 ..
-
量化交易是通过编程建模等方式,利用概率论、统计学等知识从庞大的历史数据中总结规律并建模量化模型,然后凭借计算机强大的计算能力来高效、快速地进行交易决策。编程语言可选择的语言很多,下图是来自于T ..