计算&AI •
982 引用 •
1070 回帖 •
467 关注
博客
关注
-
逻辑数仓可以实现多源混算,但需要配置视图、预处理数据,结构太沉重。duckdb 是轻量级的方案,但没有内置 Oracle 的 connector,自己开发难度又太高。同为轻量级方案,esPro ..
-
今天,企业的数据来源已经从原来的“就几张表”发展到数据库、文件、接口、流式数据、对象存储、NoSQL……五花八门。能不能搞定“多数据源混算”,已经成了数据计算技术的重要标准之一。 说起多源混算 ..
-
SQL 中的去重计数 COUNT DISTINCT 一直比较慢。 去重本质上是分组运算,需要把遍历过的分组字段值都保持住,用于后续的比对。结果集太大时,还要把数据写到硬盘上做缓存,性能低下。 ..
-
学生成绩表 score 的示例数据如下: [图片] 《下载测试数据》 1、统计各科前 3 名 统计结果要如下展示,每个名次一行,每个学科一列,并列名次的多人用逗号连结: [图片] 计算结果的格 ..
-
MongoDB 自带的查询语法功能比较繁琐,简单的任务也要写很长代码,复杂计算更难实现,比如: SPL assists MongoDB: Only keep the running total ..
-
SQL 对关联的定义过于简单,关联就是两个表做笛卡尔积后再过滤,在语法上写成 A JOIN B ON …的形式。Python 关联基本上是延用 SQL 的方式,概念和方法都差不多。 esPro ..
-
数据分析或报表类应用中有时会遇到各类复杂的 SQL,嵌套了多层的、关联了自己的、动态转置的,比如: From SQL to SPL:Create columns from distinct v ..
-
业务数据经常存在层次关系,比如订单包含日期、客户和订单明细,订单明细又包含价格、数量、产品,产品则包含名称和分类。 json 的可嵌套结构很适合描述这种关系,比如订单数据: [ { 'orde ..
-
Java 计算 csv 文件的代码太麻烦,借助数据库又会导致架构复杂。esProc 提供了 JDBC 驱动和计算类库,可以在 Java 中嵌入 SPL 语句,将 csv 文件当数据表直接查询, ..
-
数据分析经常出现跨行计算,比如比上期、比同期、移动平均等等。针对有序数据集实现跨行计算,会涉及集合相邻成员引用的问题。 比如某商家某年 12 个月的销售额已经按月份次序准备好,现在要计算最大月 ..
-
esProc SPL 提供了游标运算,可以用非常简单的代码操作大 csv 文件,稍加改动就能变成并行计算,还有图形化界面,比 Pyhton 方便多了。 先去这里下载 esProc SPL:ht ..
-
esProc SPL 支持简单 SQL,可以直接在 csv 等结构化文本文件上执行 SQL 语句,这样,不用数据库也可以用 SQL 计算了。 先下载 esProc SPL:https://ww ..
-
针对数据集合的每个成员进行计算是很常见的任务,用循环语句当然能实现,但比较麻烦,算个简单的求和都要写很多句代码。 编程语言经常把这些运算封装成函数,比如 Python 的 sum 函数,求订单 ..
-
集合在计算机中一般都存储为数组形式,其成员天然会有个位置。数据表本质上是记录的集合,也会被存储成数组,作为成员的记录也有位置的概念。而实际应用中确实有很多分析计算都是位置相关的,但 SQL 把 ..
-
标准 SQL 中提供了五种最常用的聚合运算:SUM/COUNT/AVG/MIN/MAX,都是对集合计算出单值。 比如日志表中找出用户 1001 第一次登录的时间,SQL 很简单: SELECT ..
-
在很多业务场景中需要在 word 文档中嵌入报表。比如下图这个报告: .. [图片] [图片] 这是一个某大学年度毕业生就业报告,报告中的表格和统计图的数据来自数据库,如果通过报表工具,制作这 ..
-
早期 SQL 对有序计算极端不适应,理论上可以写,但实际的麻烦程度基本上等同于不能用。 在引入窗口函数后,有序计算得到了一定的改善,但 SQL 的基础还是无序集合,即使打了窗口函数这样的补丁也 ..
-
下面是某企业的历史销售合同记录Contract.txt: [图片] 去年有销售额而今年没有的客户称为今年的“流失客户”,“流失客户”的数量除以去年的总客户数量为今年“客户流失率”,请找出 20 ..
-
一家杀毒软件公司的产品采用按时间购买的方式销售,用户必须不断续购“许可 key”才可以继续使用软件,“许可 key”分为半年授权、一年授权和终身授权,详细情况如下: ID Key Type T ..
-
有一个能容纳 1000 人的餐馆,他们将座位按顺序编号并记录在了数据库表中,每个客人就坐之后,服务员就会在座位表中标记一下,当客人离开后,就删除这个标记。某一时刻下的该表如下: [图片] 由于 ..
-
某企业财务需要为员工计算员工工资并将数据导出给银行,工资的计算首先需要参考员工的缺勤率和工作绩效,具体规则为: 基本工资*(1-缺勤率+绩效) 而后再缴纳个人所得税,个税的计算方法为,以所得工 ..
-
背景 报表作为业务决策的重要依据却有着不稳定的特点,随时需要根据新的需求进行调整和优化。这种频繁的调整和更新要求报表系统具备极高的灵活性和响应速度。换句话说,报表应用能够在不停止服务的情况下, ..
-
下面是某届奥运会的比赛数据。 国家表Country.txt: [图片] 运动员表Athlete.txt记录了每位运动员所属的国家: [图片] 比赛成绩表MatchResult.txt记录了所有 ..
-
为一个销售管理系统准备模拟数据进行测试。要求生成4张表,数据的要求分别是: 销售员表,要求有50名销售员,5个地区:NorthChina, SouthChina, CentralChina, ..
-
esProc在结构化文本文件上用简单SQL查询 结构化文本文件是指以tab分隔的TXT文件或是逗号分隔的csv文件,这类文件可以看成是数据表。使用esProc 中的简单SQL可以方便地应用到这 ..