计算&AI •
991 引用 •
1070 回帖 •
471 关注
博客
关注
-
用 csv 文件存储数据很普遍。类似的还有纯文本文件、tsv 文件等等,这些文件都是平面结构,没有层次关系,数据都存成文本字符。有些 xls 文件也是类似的平面结构。 csv 文件具有简单、通 ..
-
今年以来最热门的的话题,莫过于ChatGPT,它吹响了AI大模型的号角,多家企业和机构以加速度扎堆冲入被ChatGPT轰炸出来的大模型赛道。然而这终究是属于科技巨头们的竞赛,开发大模型需要具备 ..
-
按月统计出当月发生过连续三天都有订单的用户数 SQL WITH a AS( SELECT count (1) AS num, day (OrderDate) days, CustomerID, ..
-
问题背景 发电设备中常常会放置传感器(DCS)来采集数据以监控设备运转的状况,某集团设计的电力监控统计系统,需要实时采集传感器的数据后保存,然后提供按时段的实时查询统计功能。 系统设计规模将支 ..
-
除了常见的二维数据表,我们也会用到有着多层结构的数据文件。比如用来存储销售记录的 JSON 数据文件,可能按照时间、地点等维度分为多层数据结构,但是每层结构 ..
-
目标:对比Weka,Rapidminer,Ymodel的自动建模效果 数据情况:共5份数据,3份分类,2份回归 2份Kaggle经典案例,3份真实业务数据 泰坦尼克数据 分类 Kaggle 房 ..
-
将日期转换成小整数后能获得更好的存储和计算性能。 [链接]1.3.1 转储时转换 SPL 提供了一种很省空间的方法,用 days@o(date) 把年月转换成距离 1970 年起的月数,而日用 ..
-
当前绝大部分数据仓库都会采用 SQL,SQL 发展了几十年已经成为数据库界的标准语言,用户量巨大,所以支持 SQL 对于数据仓库来讲也是很正常的。但是,在当代大数据背景下,业务复杂度节节攀升, ..
-
SQL计算能力较强,在JAVA开发中广泛应用于结构化数据计算,但SQL深度绑定数据库,存在架构性缺陷,包括计算代码难以移植、业务逻辑不支持热切换、计算性能无法低成本扩展等。现代应用架构更推崇在 ..
-
节点服务器 unitServer 默认是中文界面。 在集算器 bin 目录中找到 config.xml,将 -Duser.language=ch 改为 -Duser.language=en 即 ..
-
本章中要尝试更大数据量,将订单表按年分别存储成不同的表,表名为 Orders+ 年份,如 Orders2021,Orders2022,依此类推,表结构均和 Orders 相同 SQL SELE ..
-
流数据源通常是动态、无界的,看起来与静态、有限的批数据源区别较大,传统的数据库技术在架构上难以直接处理流数据源,只能让位于后来者。heron\samza\storm\spark\flink等计 ..
-
TPC 官网提供了 C 语言生成程序,下载编译后执行,就可以生成 TPCH 数据了。 但是, 很多人对 C 语言及其环境不熟悉,就卡在这一步了。 这里按照官方规则,写了一段 SP ..
-
查询单次购买数量超过 5 的产品及其价格、单位 SQL SELECT DISTINCT ProductID,Price,Unit FROM Orders WHERE Quantity>= ..
-
[链接]4.1.1 单层维表 SQL SELECT Employees.Region,sum(Orders.Amount) FROM Orders LEFT JOIN Employees ON ..
-
[链接]3.2.1 集文件 SQL SELECT count (DISTINCT CustomerID) iNum,count(1) Num,EmployeeID,EmployeeName F ..
-
一般业务数据都有发生时间属性,当时间跨度比较长时,查询统计往往需要先按时间段过滤。数据以时间有序存储时可以提升过滤速度。 [链接]3.1.1 集文件 存量数据:将数据读出时按时间排序,然后写入 ..
-
SQL SELECT Distinct CustomerID FROM Orders2020 UNION SELECT Distinct CustomerID FROM Orders2021 ..
-
很多开源技术都可以在 Java 下实现以数据库为核心的业务逻辑,其中 JOOQ 的计算能力比 Hibernate 强,可移植性比 MyBatis 强,受到越来越多的关注。esProc SPL ..
-
SQL SELECT DISTINCT month(OrderDate) FROM Orders WHERE OrderDate>='2021-01-01' and OrderDate& ..
-
Lambda 语法的主要目标是快捷方便地定义和使用临时函数,降低代码量,提高开发效率。SPL 专注于结构化数据计算领域,经常面对复杂的计算逻辑和冗长的计算代码,为了更适应具体的应用环境,SPL ..
-
计算框架五花八门,有用于流式计算的Flink,用于边缘计算的eKuiper、用于大规模分布式计算的MapReduce,还有Spark、Samza、Storm、Omega、Kubernetes、 ..
-
1 、前言 大数据技术催生了一些列式存储格式,合适的存储方案是高性能计算的基础。本文主要从应用角度上对比三种开源的列存文件:esProc 组表、ORC 和 Parquet 在数据压缩和读取方面 ..
-
在报表、BI、跑批等数据分析业务中,性能不足时经常会想到内存数据库。所谓内存数据库是指全量数据永驻内存,计算时不需要从外存(硬盘)读取,避免磁盘 IO,可以有效提升数据处理性能。 内存数据库被 ..
-
基于 SSC 上的应用程序可以分成两个部分,服务端由 QVA 和 QVM 构成,应用端由应用程序(以下简称 APP)和 QVS 组成。这两部分都有会涉及 SPL 脚本。服务端的 SPL 脚本在 ..