计算&AI •
798 引用 •
800 回帖 •
420 关注
博客
关注
-
现实中绝大多数 JOIN 都是字段相等的等值连接,非等值 JOIN 很少见,而且大多数可以转换成等值 JOIN 处理,我们在这里主要讨论等值 JOIN。 与 SQL 不同,SPL ..
-
筛选指定特征的曲线段二——筛选曲线段 算法背景 算法背景已经在《筛选指定特征的曲线段一——计算曲线特征》中介绍过了,这里不再赘述。 文章链接: 筛选指定特征的曲线段一——计算曲线特征 算法思路 ..
-
筛选指定特征的曲线段一——计算曲线特征 算法背景 很多仪表设备都能定时产生一些数据,称之为时间序列。将时间序列画在图上就是一条曲线,如下图: [图片] 图中横轴是时间(dd hh:mm),纵轴 ..
-
算法背景 很多仪表设备都能定时产生一些数据,称之为时间序列。 下图是一张时间序列的走势图,横轴是时间(dd hh:mm),纵轴是数值。 [图片] 数据的波动很大,看局部会有点杂乱无章的感觉,但 ..
-
前几天听说 OceanBase 打榜了 TPCH 的第一名,之后又看到这样一个测试报告[链接]。 先点评一下这个测试报告: 1. 坦白地说,这个测试还不太专业,并不能比出分布式大数据计算的关键 ..
-
什么是自动建模? 自动建模也称为自动化机器学习,自动化 ML 或 AutoML,它是将机器学习模型开发过程中耗时的反复性任务自动化的过程。 业务人员、初学者、数据科学家、分析师和开发人员都可以 ..
-
随着人工智能技术的发展,近年来国内市场上出现了很多数据挖掘类的产品,本文总结了几种常见的产品特点,以供有需求的小伙伴参考。 BAT 作为互联网公司巨头,BAT 有着天然的数据优势,比如阿里在零 ..
-
【摘要】 集算器 ETL 工具可以从多种数据源中抽取数据,进行过滤计算排序及关联运算等,再将结果 ..
-
Python/R Python 和 R 数据科学家最常用的工具,在机器学习领域有非常丰富的库资源,两者都是开源并且免费的,因此深受数据玩家们的喜爱。通常使用 Python 和 R 的都是专业的 ..
-
集算器三大场景之 敏捷计算编程。 [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] ..
-
集算器三大场景之 高性能计算数据库。 [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图 ..
-
集算器三大场景之 应用计算中间件。 [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片 ..
-
定性数据是指不能用数值尺度记录的数据,他们仅仅能被分成不同的类别,比如人的性别分为男、女,美国 50 名 CEO 的政治背景(民主党、共和党或无党派),消费者对某产品的满意程度(十分满意,一般 ..
-
我们来看一个例子,下图是一组球员的年收入数据,单位万美元,他们的平均收入是多少? [图片] 很容易,我们能够计算出他们的平均年收入是 597 万美元,这么看球员似乎是一个非常高薪的职业,但是仔 ..
-
【摘要】 多维分析(OLAP)中常见的枚举维度切片(过滤条件 in)和二值维度(是否型过滤条件)如何优化?点击了解 ${article} 问题描述 多维分析(OLAP)系统的汇总和切片,实际上 ..
-
【摘要】 面对高并发账户记录查询问题,按照本文的介绍一步一步操作,就能有效提升性能。点击了解 ${article} 问题描述 高并发账户记录查询在银行、互联网企业、通信企业中广泛存在。例如:网 ..
-
外存去重,如果数据对去重字段是有序,而且结果集很大,可以用 cs.group。但是 group 依然会生成分组子集,所以用 cs.group@1,取每一个分组的第一条记录组成排列后返回(注意是 ..
-
节点服务器 unitServer 默认是中文界面。 在集算器 bin 目录中找到 config.xml,将 -Duser.language=ch 改为 -Duser.language=en 即 ..
-
现在是大数据时代,数据中蕴含的价值也越来越受到重视,只要积累了足够的数据就可以利用 AI 技术手段来发掘数据里的价值。今天我们就来看下如何使用历史数据来进行商业预测。 1. 准备历史数据 历史 ..
-
【摘要】 全量预汇总真的是提高 OLAP 性能的可行方案吗?点击了解 ${article} 多 ..
-
将两个表或者多个表关联在一起是常见的运算,这时通常使用 SQL join 的方式进行关联并进行后续计算。但有时数据并不存储在数据库,而是以文件的形式存储在文件系统,单纯为了计算而把数据存储到数 ..
-
一句“人生苦短,我用 Python”,让多少职场人为之疯狂,培训机构甚至豪言小到黄口小儿,大到七旬老汉都学得会 Python。如果你在职场中经常跟数据打交道,曾经可能 Excel 是最常用的工 ..
-
前言 大数据时代,数据挖掘技术也从科研实验室走向了各种商业化的应用。但是, 对于我们大部分没有专业背景的人来讲,对数据挖掘的理解可能还是一个非常模糊的概念,仅仅知道数据科学家是一个高薪职业,自 ..
-
Case 1 背景:某银行个人分期违约数据,预测个人用户违约概率 数据集:290 万行,37 列, 477MB 目标变量:是否违约 评估内容: 测试集上模型表现:AUC、前 10%Lift、模 ..
-
一、 问题描述 键值查询是很常见的查询场景,在数据表上建有索引后,即使表中数据记录数巨大(几亿甚至几十亿行),用键值查询出单条记录也会很快,因为建立索引后的复杂度只有 ..