计算&AI •
979 引用 •
1069 回帖 •
466 关注
博客
关注
-
数据表枚举字段的取值是有限几种值,针对枚举字段 f 的过滤条件写成 f =v1 or f=v2 or…或者 f !=v1 and f !=v2 and…,也可能写成 in 或者 not in。 ..
-
数据库中,大主子表之间进行 EXISTS 计算往往会导致较差的性能。这样的计算本质上是在做连接,如果能预先将主子表都按照主键有序存储,就可以使用有序归并算法有效提速。这种算法只需要对两个表依次 ..
-
类似订单和明细表这样的主子表关联比较常见,在 SQL 中,这种关联用 JOIN 实现,在两个表都很大的情况下,常常出现计算速度非常慢的现象。 [图片] 如果预先将主子表都按照主键有序存储,就可 ..
-
接收 Restful 的 json 数据后经常还要计算,用 Java 处理会比较麻烦。用 esProc 会简单很多,不仅能对接 Restful 接口,擅长处理多层数据,还能嵌入 Java 应用 ..
-
QVS SRV 简称 QSRV,是独立 WebServer 进程运行,可单独部署 QSRV 管理 QVS 的资源文件,进行读取、上传、下载远程存储数据文件等操作。 安装集算器企业版 部署 QS ..
-
数据量大或者数据库繁忙都会导致数据库查询变慢,这时将数据用 esProc 导出存成文件再计算可以大幅提升性能。 数据与用例 MySQL 数据库有 orders_30m 表存储着历年的订单数据, ..
-
在数据分析应用中,数据库多表关联的 SQL 语句很复杂,JOIN 性能也不理想,多表往往会被整合成宽表。比如图中订单表和多个维表就可能会被转换为宽表: [图片] 但是,宽表也存在很多问题,比如 ..
-
今天,企业的数据来源已经从原来的“就几张表”发展到数据库、文件、接口、流式数据、对象存储、NoSQL……五花八门。能不能搞定“多数据源混算”,已经成了数据计算技术的重要标准之一。 说起多源混算 ..
-
SQL 中的去重计数 COUNT DISTINCT 一直比较慢。 去重本质上是分组运算,需要把遍历过的分组字段值都保持住,用于后续的比对。结果集太大时,还要把数据写到硬盘上做缓存,性能低下。 ..
-
学生成绩表 score 的示例数据如下: [图片] 《下载测试数据》 1、统计各科前 3 名 统计结果要如下展示,每个名次一行,每个学科一列,并列名次的多人用逗号连结: [图片] 计算结果的格 ..
-
SQL 对关联的定义过于简单,关联就是两个表做笛卡尔积后再过滤,在语法上写成 A JOIN B ON …的形式。Python 关联基本上是延用 SQL 的方式,概念和方法都差不多。 esPro ..
-
业务数据经常存在层次关系,比如订单包含日期、客户和订单明细,订单明细又包含价格、数量、产品,产品则包含名称和分类。 json 的可嵌套结构很适合描述这种关系,比如订单数据: [ { 'orde ..
-
数据分析经常出现跨行计算,比如比上期、比同期、移动平均等等。针对有序数据集实现跨行计算,会涉及集合相邻成员引用的问题。 比如某商家某年 12 个月的销售额已经按月份次序准备好,现在要计算最大月 ..
-
esProc SPL 支持简单 SQL,可以直接在 csv 等结构化文本文件上执行 SQL 语句,这样,不用数据库也可以用 SQL 计算了。 先下载 esProc SPL:https://ww ..
-
针对数据集合的每个成员进行计算是很常见的任务,用循环语句当然能实现,但比较麻烦,算个简单的求和都要写很多句代码。 编程语言经常把这些运算封装成函数,比如 Python 的 sum 函数,求订单 ..
-
集合在计算机中一般都存储为数组形式,其成员天然会有个位置。数据表本质上是记录的集合,也会被存储成数组,作为成员的记录也有位置的概念。而实际应用中确实有很多分析计算都是位置相关的,但 SQL 把 ..
-
标准 SQL 中提供了五种最常用的聚合运算:SUM/COUNT/AVG/MIN/MAX,都是对集合计算出单值。 比如日志表中找出用户 1001 第一次登录的时间,SQL 很简单: SELECT ..
-
在很多业务场景中需要在 word 文档中嵌入报表。比如下图这个报告: .. [图片] [图片] 这是一个某大学年度毕业生就业报告,报告中的表格和统计图的数据来自数据库,如果通过报表工具,制作这 ..
-
早期 SQL 对有序计算极端不适应,理论上可以写,但实际的麻烦程度基本上等同于不能用。 在引入窗口函数后,有序计算得到了一定的改善,但 SQL 的基础还是无序集合,即使打了窗口函数这样的补丁也 ..
-
下面是某企业的历史销售合同记录Contract.txt: [图片] 去年有销售额而今年没有的客户称为今年的“流失客户”,“流失客户”的数量除以去年的总客户数量为今年“客户流失率”,请找出 20 ..
-
一家杀毒软件公司的产品采用按时间购买的方式销售,用户必须不断续购“许可 key”才可以继续使用软件,“许可 key”分为半年授权、一年授权和终身授权,详细情况如下: ID Key Type T ..
-
有一个能容纳 1000 人的餐馆,他们将座位按顺序编号并记录在了数据库表中,每个客人就坐之后,服务员就会在座位表中标记一下,当客人离开后,就删除这个标记。某一时刻下的该表如下: [图片] 由于 ..
-
某企业财务需要为员工计算员工工资并将数据导出给银行,工资的计算首先需要参考员工的缺勤率和工作绩效,具体规则为: 基本工资*(1-缺勤率+绩效) 而后再缴纳个人所得税,个税的计算方法为,以所得工 ..
-
背景 报表作为业务决策的重要依据却有着不稳定的特点,随时需要根据新的需求进行调整和优化。这种频繁的调整和更新要求报表系统具备极高的灵活性和响应速度。换句话说,报表应用能够在不停止服务的情况下, ..
-
下面是某届奥运会的比赛数据。 国家表Country.txt: [图片] 运动员表Athlete.txt记录了每位运动员所属的国家: [图片] 比赛成绩表MatchResult.txt记录了所有 ..