计算&AI •
902 引用 •
973 回帖 •
449 关注
博客
关注
-
本次实践的目标是从大量的高维(比如 512 维)二值向量中找到与目标向量最相似的成员。二值向量即各维度取值均为 0 或 1 的向量,“相似”指在高维空间中距离近,而距离有很多种,如欧式距离,马 ..
-
背景 关系数据库是最常见的数据存储方案,SQL自然也成为数据处理的第一选择。但随着企业级应用越来越复杂,使用SQL实现数据运算和处理也开始面临许多架构层面的严重问题。复杂的SQL(存储过程)很 ..
-
在《[链接]》中,我们对比了Python和SPL在数据读取和计算方面的性能。日常数据处理的过程中,还会有许多对数据集改写的动作,这一次我们对比一下Python和SPL在这方面的性能。 测试环境 ..
-
测试环境 系统:CentOS7 虚拟机:VMWare 15.5.1build-15018445 内存:32G CPU:4 数据:1G规模的TPCH 数据读取 数据源分为两种,分别是文本文件和数 ..
-
概述 SPL主要是为了解决SQL的困难(复杂任务很难写且跑得慢、跨源计算难、依赖存储过程等)而设计的,其应用场景也与SQL类似,一般会配合应用程序工作,且能支持大数据,包括高性能运算和并行运算 ..
-
问题提出 工业生产活动的目标是利用原料生产产品,从而产生利润。原料经过一系列加工过程,包括物理反应和化学反应,最终形成产品,生产的理想状态是原料到产品的转换率是确定的,工厂想生产多少产品就知道 ..
-
问题提出 工业生产过程中会产生大量的数据,比如电压、温度、流量等等,不同的工况条件下,数据的走势不同,比如产量稳定时,流量走势平稳,产量增加时,流量势必也会增加,体现在图像上就是流量曲线上升。 ..
-
基本问题 工业生产过程中会产生大量的数据,比如电压、温度、流量等等,它们随时间推移而不断产生,这些数据在多数情况下是正常的,否则生产无法正常进行;少数情况下,数据是异常的,生产效率会降低甚至发 ..
-
数据分析过程中,数据可视化可以帮我们更好的感知数据,从而采用更好的策略来处理数据,本文就来对比一下 Python 和 SPL 在数据可视化方面的情况。 Python Python常用的两个画图 ..
-
编写程序难免出现 bug,有时即使程序能够正常运行,得到的结果也可能不正确,所以除了查看报错信息,我们通常还要进行一些调试工作,本文就来对比一下 Python 和 SPL 在程序调试方面的情况 ..
-
问题描述 国家天文台有个聚类任务:共 11 份数据,每份数据是从一张照片中提取出来的,包含 500 多万条记录,每条记录是一个天体的坐标及属性。11 张“照片”中有些天体坐标是重复的,但这些重 ..
-
在数据分析时,经常遇到内存无法放下的数据,需要借助硬盘完成数据分析,本文对比 Python 和 SPL 对这种数量级数据的运算分析能力,至于更大级别如 ..
-
《Python和 SPL对比系列 10——一对 N关联》介绍了关联关系中的一对一和一对 N 关联,本文对比 Python 和 SPL 多对一关联的运算能 ..
-
数据分析中,经常会遇到两表或多表关联,表间关联关系可以分为以下几种:一对一、一对多、多对一和多对多。一对一关联,是指一张表的一条记录只与另外一张表的一条记录对应;一对多关联,是指一张表的一条记 ..
-
分组后再汇总,通常会得到一个比原集合更小的集合,相当于做了聚合;逆分组相当于分组的逆运算,用一个较小的数据表通过某种规则计算出一个更大的数据表;转置也就是常说的行转列,相当于是分组的变种,逆转 ..
-
人们对序运算天然是感兴趣的,分组运算也会涉及到次序。本文对比 Python 和 SPL 在有序分组的运算能力。 位置分组 成员的位置信息可能参与分组计算 ..
-
通常的分组都是等值分组,有以下几个特点: 1) 原集合的所有成员都在且只在唯一的组中; 2) 没有一个组是空集; 满足这种特点分组在数学上又称为完全划分。 那么是不是还有不完全划分呢? 是的, ..
-
当事物比较多时,人们习惯将这些事物分类,然后再做聚合运算。如查看学校各班级的最高成绩,查看公司员工各部门的平均年龄等,这种运算称为分组,大多数分组也会伴随着下一步的聚合运算。最常见的分组是将属 ..
-
人们天然对序运算感兴趣,比上期、同期比等都是序运算,本文对比 Python 和 SPL 的有序运算。 排序 排序是最常见的运算了,如: 按日期对代码为 000062 的股票排序。 股票数据如下 ..
-
从集合中选出子集是常见运算,比如从公司成员中选出年龄大于 40 的成员等,本文对比 Python 和 SPL 的选出运算。 选出指定位置的成员 如:公司成员信息表如下,请选出偶数位置的公司成员 ..
-
针对集合每个成员计算,遍历后得出一个新结果的函数,我们通称为循环函数。Python原生的 list 循环函数太少了,稍微复杂一些的循环就得用 for 来写了,所以这里就不介绍了,我们主要对比 ..
-
序列是被排成一列的对象(或事件),这样每个元素不是在其他元素之前,就是在其他元素之后,元素之间的顺序非常重要。 集合是具有某种特定性质的具体的或抽象的对象汇总而成的集体。构成集合的这些对象则称 ..
-
筛选指定特征的曲线段二——筛选曲线段 算法背景 算法背景已经在《筛选指定特征的曲线段一——计算曲线特征》中介绍过了,这里不再赘述。 文章链接: 筛选指定特征的曲线段一——计算曲线特征 算法思路 ..
-
筛选指定特征的曲线段一——计算曲线特征 算法背景 很多仪表设备都能定时产生一些数据,称之为时间序列。将时间序列画在图上就是一条曲线,如下图: [图片] 图中横轴是时间(dd hh:mm),纵轴 ..
-
算法背景 很多仪表设备都能定时产生一些数据,称之为时间序列。 下图是一张时间序列的走势图,横轴是时间(dd hh:mm),纵轴是数值。 [图片] 数据的波动很大,看局部会有点杂乱无章的感觉,但 ..