计算&AI •
990 引用 •
1070 回帖 •
471 关注
博客
关注
-
SPL提供了两种方式连接数据库:JDBC/ODBC直连方式;JNDI连接池方式。 在Mysql中有一个MyCompany库,库里有employees表,下面尝试各种方式连接它。 [图片] 直连 ..
-
1、 测试任务 本任务原型为某大型电器企业ERP系统中的产品库龄统计。 原始数据是如下的一对主子表: 库存表(store): 字段名 数据类型 字段含义 store 字符串 仓库ID prod ..
-
1 应用场景 和【实时追加例程】的应用场景类似,所不同的是需要对数据进行更新。本例程适用于具有如下特征的数据表的更新: 对数据更新的实时性要求很高、数据更新周期很短、任意时刻均有可能更新;单次 ..
-
自从 AlphaGo 赢了之后,人工智能就变得非常热门了,ChatGPT的出现,更是将人工智能的热度推上了一个新高度。不过,大家在关注“智能”时,却很少把注意力放在“人工”上,似乎感觉上了人工 ..
-
今年以来最热门的的话题,莫过于ChatGPT,它吹响了AI大模型的号角,多家企业和机构以加速度扎堆冲入被ChatGPT轰炸出来的大模型赛道。然而这终究是属于科技巨头们的竞赛,开发大模型需要具备 ..
-
一、 测试任务 电商业务中漏斗分析是常见的统计需求。用户使用智能设备购物时,系统会建立连接形成会话 session。每个会话又包含很多个操作事件 event,比如:访问网站,浏览产品页,下单购 ..
-
组表是SPL重要的文件存储格式。组表文件不支持在读取时同时写入,为保证高性能,组表还常常要求数据有序存储。数据不是一成不变的,还需要持续追加或更新,新产生数据的次序通常和组表要求的次序也不同。 ..
-
1. 应用场景 本例程适用于具有如下特征的数据表的追加: 对数据追加的实时性要求很高、数据追加周期很短、任意时刻均有可能追加;数据只有追加无删除修改的需求;单次追加的数据量比较小,可以全内存存 ..
-
我们知道,早期数据库并不区分 TP 和 AP,所有任务都在一个数据库中完成。做 TP 业务时,要保证数据的一致性,而一致性要限定在一个范围内才有意义,这也就有了“库”的概念。数据入库是有门槛的 ..
-
一、 测试任务 现代商业智能中,指标分析的页面常常会同时呈现出很多个统计指标,这些指标大都从同一个数据集(比如宽表)中计算出来,使用相同的过滤条件,对关心的测度字段按多个(可能几十个)不同维度 ..
-
一、 测试任务 基于位置计算两个实体之间的距离,进而决定是否建立关联关系。这是典型的非等值关联运算,此时不能再使用 HASH 方法来优化。 任务原型来自国家天文台的星体聚类运算,经过简化后描述 ..
-
一、 测试任务 多维分析中常见的事实表和多个及多层维表的关联后按维度的汇总统计,以及宽表按维度的统计。 基于TPCH 100G数据集,设计大事实表和多个维表关联的运算: 1. 一个事实表和一个 ..
-
当前绝大部分数据仓库都会采用 SQL,SQL 发展了几十年已经成为数据库界的标准语言,用户量巨大,所以支持 SQL 对于数据仓库来讲也是很正常的。但是,在当代大数据背景下,业务复杂度节节攀升, ..
-
SPL 变量有三种作用域:局部变量、全局变量、任务变量。默认变量都是局部变量,作用域在同一个 SPL 脚本的范围内(不含主子线程代码),用法比较简单,本文不涉及。下面重点讲另两种变量,以及与之 ..
-
Web 上的数据接口以 restful 和 WebService 为主,格式通常是多层的 Json 和 XML。多层数据可承载更通用更丰富的信息,但结构上比传统的二维数据复杂,计算难度也更大。 ..
-
企业版集算器中提供了远服务器,该功能可以对远程服务器或远程存储进行上传下载文件、修改调试SPL脚本等操作。 使用远服务器前需要部署远服务器RSRV应用,企业版集算器内置的Tomcat中已部署该 ..
-
txt\csv\json\xml\xls 等公共格式的文件在工作中经常会用到,有时候需要对这些文件进行计算处理。能实现这一目标的工具表面看不少,但实际都有各自的缺陷。OpenCSV\JsonP ..
-
Ymodel,Weka和Rapidmine Studio(以下统一简称Rapidminer)是三款自动建模做的都不错的产品,在 Ymodel-Weka-Rapidminer 自动建模效果对比一 ..
-
SQL 应用很广,数据科学家(分析师)们在日常工作中经常需要用到 SQL 语言进行数据查询和处理。很多企业也认为只要 IT 部门建好数据仓库(数据平台),提供了 SQL 功能,数据科学家们就能 ..
-
应用中的数据业务通常涉及持久化数据的访问、数据计算和流程处理。数据库中的持久化数据可以用 SQL 计算,存储过程的 loop/if 语句可以进行流程处理,JDBC(含 ODBC)可以让 SQL ..
-
目标:对比Weka,Rapidminer,Ymodel的自动建模效果 数据情况:共5份数据,3份分类,2份回归 2份Kaggle经典案例,3份真实业务数据 泰坦尼克数据 分类 Kaggle 房 ..
-
很多小微型应用程序也需要一些数据处理和计算能力,如果集成一个数据库就显得太沉重了,这种情况下 SQLite 是一个不错的选择,它架构简单,集成方便,可持久化存储数据,并提供 SQL 实现计算能 ..
-
一、 测试任务 TPCH 100G。 TPCH是国际标准,具体内容不再过多解释。 需要说明的是,TPCH 虽然有 22 个题,但仍然不能全面反映出被测系统对实际业务的响应性能。主要原因如下两点 ..
-
使用存储过程跑批一直是常态,存储过程将 SQL 过程化可以满足相对复杂的跑批场景,同时在数据库内运行(数据不出库)性能相对较好。不过,存储过程的缺点也很多。编辑调试困难,缺乏有效的开发环境;移 ..
-
Q1 运行环境 esProc 目前是纯 Java 软件,只要有 JDK1.8 及以上版本的 JVM 环境的任何操作系统都可以运行,包括常见的 VM 和 Container。 esProc 正常 ..