计算&AI •
1002 引用 •
1079 回帖 •
472 关注
博客
关注
-
时间键介绍 维表的数据相对比较固定,但仍然也会有变动。比如某客户的所在城市发生了变化:2020 年 5 月 15 日,city 从 New York 变更为 Chicago。 在订单表关联客户 ..
-
对于按照一定次序排列的数据进行计算,经常会遇到跨行引用的情况,比如股票价格相比前一天的涨幅是多少,求某支股票的 20 日均价等等。 ..
-
将日期转换成小整数后能获得更好的存储和计算性能。 [链接]1.3.1 转储时转换 SPL 提供了一种很省空间的方法,用 days@o(date) 把年月转换成距离 1970 年起的月数,而日用 ..
-
SQL WITH m AS( SELECT *, row_number() OVER(PARTITION BY year(OrderDate),month(OrderDate)) r FROM ..
-
在报表、BI、跑批等数据分析业务中,性能不足时经常会想到内存数据库。所谓内存数据库是指全量数据永驻内存,计算时不需要从外存(硬盘)读取,避免磁盘 IO,可以有效提升数据处理性能。 内存数据库被 ..
-
基本问题 工业生产过程中会产生大量的数据,比如电压、温度、流量等等,它们随时间推移而不断产生,这些数据在多数情况下是正常的,否则生产无法正常进行;少数情况下,数据是异常的,生产效率会降低甚至发 ..
-
对于已经序号化的维表,可以利用对位序列来处理维表上的过滤。 原理:产生一个与维表同样长度的序列,其成员是布尔值,满足条件的维表记录对应 true,否则对应 false。然后在事实表中用已经序号 ..
-
将取值可能有限的枚举字符串转换成整数后可以获得更好的存储和计算性能。 [链接]1.4.1 转储时转换 将枚举字段用取值序列的序号代替,这里以 ShipVia 举例 A 1 =file(“Shi ..
-
TPC 官网提供了 C 语言生成程序,下载编译后执行,就可以生成 TPCH 数据了。 但是, 很多人对 C 语言及其环境不熟悉,就卡在这一步了。 这里按照官方规则,写了一段 SP ..
-
当前绝大部分数据仓库都会采用 SQL,SQL 发展了几十年已经成为数据库界的标准语言,用户量巨大,所以支持 SQL 对于数据仓库来讲也是很正常的。但是,在当代大数据背景下,业务复杂度节节攀升, ..
-
[链接]4.1.1 单层维表 SQL SELECT Employees.Region,sum(Orders.Amount) FROM Orders LEFT JOIN Employees ON ..
-
流数据源通常是动态、无界的,看起来与静态、有限的批数据源区别较大,传统的数据库技术在架构上难以直接处理流数据源,只能让位于后来者。heron\samza\storm\spark\flink等计 ..
-
计算框架五花八门,有用于流式计算的Flink,用于边缘计算的eKuiper、用于大规模分布式计算的MapReduce,还有Spark、Samza、Storm、Omega、Kubernetes、 ..
-
[链接]3.2.1 集文件 SQL SELECT count (DISTINCT CustomerID) iNum,count(1) Num,EmployeeID,EmployeeName F ..
-
1 、前言 大数据技术催生了一些列式存储格式,合适的存储方案是高性能计算的基础。本文主要从应用角度上对比三种开源的列存文件:esProc 组表、ORC 和 Parquet 在数据压缩和读取方面 ..
-
-
本章中要尝试更大数据量,将订单表按年分别存储成不同的表,表名为 Orders+ 年份,如 Orders2021,Orders2022,依此类推,表结构均和 Orders 相同 SQL SELE ..
-
ChatGPT带火了大模型,也带火了向量数据库。大模型训练成本高,学习新知识的周期太长,而向量数据库刚好可以充当大模型的“记忆”模块,找到与新问题相似的旧问题交给大模型处理,极大地扩展了大模型 ..
-
问题背景 发电设备中常常会放置传感器(DCS)来采集数据以监控设备运转的状况,某集团设计的电力监控统计系统,需要实时采集传感器的数据后保存,然后提供按时段的实时查询统计功能。 系统设计规模将支 ..
-
很多开源技术都可以在 Java 下实现以数据库为核心的业务逻辑,其中 JOOQ 的计算能力比 Hibernate 强,可移植性比 MyBatis 强,受到越来越多的关注。esProc SPL ..
-
目标:对比Weka,Rapidminer,Ymodel的自动建模效果 数据情况:共5份数据,3份分类,2份回归 2份Kaggle经典案例,3份真实业务数据 泰坦尼克数据 分类 Kaggle 房 ..
-
1. 准备历史数据。 在营销场景中,要预测的目标是客户的购买行为,需要搜集一些可能会影响购买行为的信息字段,比如客户的年龄、学历、工作、收入、家庭结构、生活习惯、购物偏好,以及产品的特点、促销 ..
-
Lambda 语法的主要目标是快捷方便地定义和使用临时函数,降低代码量,提高开发效率。SPL 专注于结构化数据计算领域,经常面对复杂的计算逻辑和冗长的计算代码,为了更适应具体的应用环境,SPL ..
-
交易策略如下: 1. 把第二天是否上涨作为目标(target),收盘价大于前一天,target为1,否则target为-1。 2. 增加两个特征,最高价减最低价(max_dif),收盘价减开盘 ..
-
select o_orderpriority, count(*) as order_count from orders where o_orderdate >= date '1995-1 ..