计算&AI •
990 引用 •
1070 回帖 •
471 关注
博客
关注
-
应用中的数据业务通常涉及持久化数据的访问、数据计算和流程处理。数据库中的持久化数据可以用 SQL 计算,存储过程的 loop/if 语句可以进行流程处理,JDBC(含 ODBC)可以让 SQL ..
-
目标:对比Weka,Rapidminer,Ymodel的自动建模效果 数据情况:共5份数据,3份分类,2份回归 2份Kaggle经典案例,3份真实业务数据 泰坦尼克数据 分类 Kaggle 房 ..
-
很多小微型应用程序也需要一些数据处理和计算能力,如果集成一个数据库就显得太沉重了,这种情况下 SQLite 是一个不错的选择,它架构简单,集成方便,可持久化存储数据,并提供 SQL 实现计算能 ..
-
一、 测试任务 TPCH 100G。 TPCH是国际标准,具体内容不再过多解释。 需要说明的是,TPCH 虽然有 22 个题,但仍然不能全面反映出被测系统对实际业务的响应性能。主要原因如下两点 ..
-
使用存储过程跑批一直是常态,存储过程将 SQL 过程化可以满足相对复杂的跑批场景,同时在数据库内运行(数据不出库)性能相对较好。不过,存储过程的缺点也很多。编辑调试困难,缺乏有效的开发环境;移 ..
-
结构化数据的计算处理一直以 SQL 为主。不过随着技术的不断发展,现在经常为了满足扩展性的需要而使用 Java 来处理数据。这样可以显著降低数据库与应用的耦合性(数据库仅用于存储),整体架构更 ..
-
以有序集合为基础,可以延申出多种运算,最简单的是位置访问,即按下标或位置获取记录集合中的成员。与之相对的是定位运算,即按某种方式获取记录集合中成员的位置,比如字段极值所在记录的位置、符合条件的 ..
-
背景 关系数据库是最常见的数据存储方案,SQL自然也成为数据处理的第一选择。但随着企业级应用越来越复杂,使用SQL实现数据运算和处理也开始面临许多架构层面的严重问题。复杂的SQL(存储过程)很 ..
-
几乎所有行业的核心数据都是结构化的,结构化数据是这个时代最重要的数据资产。那么如何利用处理好这些核心数据自然成了企业经营中的重中之重。当然,结构化数据处理技术也由来已久,SQL、Java、Py ..
-
在《[链接]》中,我们对比了Python和SPL在数据读取和计算方面的性能。日常数据处理的过程中,还会有许多对数据集改写的动作,这一次我们对比一下Python和SPL在这方面的性能。 测试环境 ..
-
测试环境 系统:CentOS7 虚拟机:VMWare 15.5.1build-15018445 内存:32G CPU:4 数据:1G规模的TPCH 数据读取 数据源分为两种,分别是文本文件和数 ..
-
What?写在格子里的程序语言?! 是的!你没看错,写在格子里的程序语言 SPL(Structured Process Language),专门用于结构化数据处理。 我们知道,几乎所有编程语言 ..
-
Lambda 语法的主要目标是快捷方便地定义和使用临时函数,降低代码量,提高开发效率。SPL 专注于结构化数据计算领域,经常面对复杂的计算逻辑和冗长的计算代码,为了更适应具体的应用环境,SPL ..
-
序号是从 1(或 0)开始依次增长的自然数,可用于数组和序列的下标、数据集和序表的行号,以及自然数字段。 SQL 对序号的支持不足,作为基础数据类型的记录集合(表)是无序的,没有天然行号,SQ ..
-
封闭的传统数据仓库 我们知道数据仓库是晚于数据库出现的,当 TP 数据库无法满足日益增长的数据分析需要时,人们便通过架设单独的数据库把 AP 业务独立出来就形成了数据仓库(逻辑概念)。后续出现 ..
-
现代大数据应用的结构大概是这样的: [图片] 作为数据中心(中间部分)处于各种应用与数据源之间,对下对接多种数据源处理分析所有数据,对上要为各个应用提供数据服务,其重要性不言而喻。数据中心由于 ..
-
本文旨在介绍如何将 git 上的开源项目 esProc 导入到 eclipse 中,为用户进行软件开发提供方便。 eclipse 通过 Git 获取 esProc 步骤 打开 eclipse, ..
-
随着数据量不断增长和业务复杂度逐渐攀升,数据处理效率面临巨大挑战。最典型的表现是面向分析型场景的数据仓库性能问题越来越突出,压力大、性能低,查询时间长甚至查不出来,跑批跑不完造成生产事故等问题 ..
-
概述 SPL主要是为了解决SQL的困难(复杂任务很难写且跑得慢、跨源计算难、依赖存储过程等)而设计的,其应用场景也与SQL类似,一般会配合应用程序工作,且能支持大数据,包括高性能运算和并行运算 ..
-
【本篇可结合 https://c.raqsoft.com.cn/article/1699245988919 阅读】 目前网上有很多涉及 esProc SPL 的帖子,有方案介绍、测试报告、案例 ..
-
有序存储是指将数据按照某些字段排序后再存储。在此基础上,我们可以实现某些高性能算法,利用数据有序的特征来降低计算复杂度,从而大幅提高计算性能。 免索引直接找 在查找计算中,我们常常要按某字段的 ..
-
在电商系统中,漏斗转化分析是很重要的数据分析计算。电商的用户在系统中会进行多个操作事件,例如页面浏览、搜索、加购物车、下单、付款等。这些事件有一定的先后顺序,事件顺序越靠后,完成该事件的用户数 ..
-
在统计分析应用中,从明细数据计算出来的各种指标是支撑业务的重要数据。但是,要做到快速而且灵活的多指标计算,后台数据源面临多个难题。 多指标计算的一个难题是涉及的明细数据量非常大。政府、金融、能 ..
-
很多大机构都会有个中央数据仓库负责向应用提供数据服务。随着业务的发展,中央数据仓库的负载在持续增加。一方面,数仓是前端应用的数据后台,而前端应用不断增多,用户访问的并发数也不断增长。另一方面, ..
-
SQL SELECT floor((year(curdate())-year(Employees.Birthday))/10) Age, sum(Orders.Amount) Amount F ..