计算&AI •
874 引用 •
936 回帖 •
446 关注
博客
关注
-
Ymodel,Weka和Rapidmine Studio(以下统一简称Rapidminer)是三款自动建模做的都不错的产品,在 Ymodel-Weka-Rapidminer 自动建模效果对比一 ..
-
SQL 应用很广,数据科学家(分析师)们在日常工作中经常需要用到 SQL 语言进行数据查询和处理。很多企业也认为只要 IT 部门建好数据仓库(数据平台),提供了 SQL 功能,数据科学家们就能 ..
-
应用中的数据业务通常涉及持久化数据的访问、数据计算和流程处理。数据库中的持久化数据可以用 SQL 计算,存储过程的 loop/if 语句可以进行流程处理,JDBC(含 ODBC)可以让 SQL ..
-
目标:对比Weka,Rapidminer,Ymodel的自动建模效果 数据情况:共5份数据,3份分类,2份回归 2份Kaggle经典案例,3份真实业务数据 泰坦尼克数据 分类 Kaggle 房 ..
-
很多小微型应用程序也需要一些数据处理和计算能力,如果集成一个数据库就显得太沉重了,这种情况下 SQLite 是一个不错的选择,它架构简单,集成方便,可持久化存储数据,并提供 SQL 实现计算能 ..
-
一、 测试任务 TPCH 100G。 TPCH是国际标准,具体内容不再过多解释。 需要说明的是,TPCH 虽然有 22 个题,但仍然不能全面反映出被测系统对实际业务的响应性能。主要原因如下两点 ..
-
使用存储过程跑批一直是常态,存储过程将 SQL 过程化可以满足相对复杂的跑批场景,同时在数据库内运行(数据不出库)性能相对较好。不过,存储过程的缺点也很多。编辑调试困难,缺乏有效的开发环境;移 ..
-
Q1 运行环境 esProc 目前是纯 Java 软件,只要有 JDK1.8 及以上版本的 JVM 环境的任何操作系统都可以运行,包括常见的 VM 和 Container。 esProc 正常 ..
-
结构化数据的计算处理一直以 SQL 为主。不过随着技术的不断发展,现在经常为了满足扩展性的需要而使用 Java 来处理数据。这样可以显著降低数据库与应用的耦合性(数据库仅用于存储),整体架构更 ..
-
以有序集合为基础,可以延申出多种运算,最简单的是位置访问,即按下标或位置获取记录集合中的成员。与之相对的是定位运算,即按某种方式获取记录集合中成员的位置,比如字段极值所在记录的位置、符合条件的 ..
-
背景 关系数据库是最常见的数据存储方案,SQL自然也成为数据处理的第一选择。但随着企业级应用越来越复杂,使用SQL实现数据运算和处理也开始面临许多架构层面的严重问题。复杂的SQL(存储过程)很 ..
-
几乎所有行业的核心数据都是结构化的,结构化数据是这个时代最重要的数据资产。那么如何利用处理好这些核心数据自然成了企业经营中的重中之重。当然,结构化数据处理技术也由来已久,SQL、Java、Py ..
-
除了常见的静态代码外,有时候也需要用动态代码解决问题,比如根据参数生成代码(或一部分)并动态执行。对于缺乏动态代码机制的程序语言,通常要将代码的可变部分写成字符串形式,比如Python中的引用 ..
-
在《[链接]》中,我们对比了Python和SPL在数据读取和计算方面的性能。日常数据处理的过程中,还会有许多对数据集改写的动作,这一次我们对比一下Python和SPL在这方面的性能。 测试环境 ..
-
测试环境 系统:CentOS7 虚拟机:VMWare 15.5.1build-15018445 内存:32G CPU:4 数据:1G规模的TPCH 数据读取 数据源分为两种,分别是文本文件和数 ..
-
What?写在格子里的程序语言?! 是的!你没看错,写在格子里的程序语言 SPL(Structured Process Language),专门用于结构化数据处理。 我们知道,几乎所有编程语言 ..
-
Lambda 语法的主要目标是快捷方便地定义和使用临时函数,降低代码量,提高开发效率。SPL 专注于结构化数据计算领域,经常面对复杂的计算逻辑和冗长的计算代码,为了更适应具体的应用环境,SPL ..
-
序号是从 1(或 0)开始依次增长的自然数,可用于数组和序列的下标、数据集和序表的行号,以及自然数字段。 SQL 对序号的支持不足,作为基础数据类型的记录集合(表)是无序的,没有天然行号,SQ ..
-
量化交易是通过编程建模等方式,利用概率论、统计学等知识从庞大的历史数据中总结规律并建模量化模型,然后凭借计算机强大的计算能力来高效、快速地进行交易决策。编程语言可选择的语言很多,下图是来自于T ..
-
封闭的传统数据仓库 我们知道数据仓库是晚于数据库出现的,当 TP 数据库无法满足日益增长的数据分析需要时,人们便通过架设单独的数据库把 AP 业务独立出来就形成了数据仓库(逻辑概念)。后续出现 ..
-
现代大数据应用的结构大概是这样的: [图片] 作为数据中心(中间部分)处于各种应用与数据源之间,对下对接多种数据源处理分析所有数据,对上要为各个应用提供数据服务,其重要性不言而喻。数据中心由于 ..
-
本文旨在介绍如何将 git 上的开源项目 esProc 导入到 eclipse 中,为用户进行软件开发提供方便。 Eclipse 通过 Git 获取 esProc 步骤 打开 Eclipse, ..
-
随着数据量不断增长和业务复杂度逐渐攀升,数据处理效率面临巨大挑战。最典型的表现是面向分析型场景的数据仓库性能问题越来越突出,压力大、性能低,查询时间长甚至查不出来,跑批跑不完造成生产事故等问题 ..
-
概述 SPL主要是为了解决SQL的困难(复杂任务很难写且跑得慢、跨源计算难、依赖存储过程等)而设计的,其应用场景也与SQL类似,一般会配合应用程序工作,且能支持大数据,包括高性能运算和并行运算 ..
-
一、问题提出 时间序列数据主要由电力行业、化工行业、气象行业、地理信息等各类型实时监测、检查与分析设备所采集、产生的数据,这些工业数据的典型特点是:产生频率快(每一个监测点一秒钟内可产生多条数 ..