计算&AI •
979 引用 •
1069 回帖 •
466 关注
博客
关注
-
在数据分析应用中,数据库多表关联的 SQL 语句很复杂,JOIN 性能也不理想,多表往往会被整合成宽表。比如图中订单表和多个维表就可能会被转换为宽表: [图片] 但是,宽表也存在很多问题,比如 ..
-
今天,企业的数据来源已经从原来的“就几张表”发展到数据库、文件、接口、流式数据、对象存储、NoSQL……五花八门。能不能搞定“多数据源混算”,已经成了数据计算技术的重要标准之一。 说起多源混算 ..
-
SQL 中的去重计数 COUNT DISTINCT 一直比较慢。 去重本质上是分组运算,需要把遍历过的分组字段值都保持住,用于后续的比对。结果集太大时,还要把数据写到硬盘上做缓存,性能低下。 ..
-
学生成绩表 score 的示例数据如下: [图片] 《下载测试数据》 1、统计各科前 3 名 统计结果要如下展示,每个名次一行,每个学科一列,并列名次的多人用逗号连结: [图片] 计算结果的格 ..
-
SQL 对关联的定义过于简单,关联就是两个表做笛卡尔积后再过滤,在语法上写成 A JOIN B ON …的形式。Python 关联基本上是延用 SQL 的方式,概念和方法都差不多。 esPro ..
-
业务数据经常存在层次关系,比如订单包含日期、客户和订单明细,订单明细又包含价格、数量、产品,产品则包含名称和分类。 json 的可嵌套结构很适合描述这种关系,比如订单数据: [ { 'orde ..
-
数据分析经常出现跨行计算,比如比上期、比同期、移动平均等等。针对有序数据集实现跨行计算,会涉及集合相邻成员引用的问题。 比如某商家某年 12 个月的销售额已经按月份次序准备好,现在要计算最大月 ..
-
针对数据集合的每个成员进行计算是很常见的任务,用循环语句当然能实现,但比较麻烦,算个简单的求和都要写很多句代码。 编程语言经常把这些运算封装成函数,比如 Python 的 sum 函数,求订单 ..
-
集合在计算机中一般都存储为数组形式,其成员天然会有个位置。数据表本质上是记录的集合,也会被存储成数组,作为成员的记录也有位置的概念。而实际应用中确实有很多分析计算都是位置相关的,但 SQL 把 ..
-
标准 SQL 中提供了五种最常用的聚合运算:SUM/COUNT/AVG/MIN/MAX,都是对集合计算出单值。 比如日志表中找出用户 1001 第一次登录的时间,SQL 很简单: SELECT ..
-
在很多业务场景中需要在 word 文档中嵌入报表。比如下图这个报告: .. [图片] [图片] 这是一个某大学年度毕业生就业报告,报告中的表格和统计图的数据来自数据库,如果通过报表工具,制作这 ..
-
早期 SQL 对有序计算极端不适应,理论上可以写,但实际的麻烦程度基本上等同于不能用。 在引入窗口函数后,有序计算得到了一定的改善,但 SQL 的基础还是无序集合,即使打了窗口函数这样的补丁也 ..
-
下面是某企业的历史销售合同记录Contract.txt: [图片] 去年有销售额而今年没有的客户称为今年的“流失客户”,“流失客户”的数量除以去年的总客户数量为今年“客户流失率”,请找出 20 ..
-
一家杀毒软件公司的产品采用按时间购买的方式销售,用户必须不断续购“许可 key”才可以继续使用软件,“许可 key”分为半年授权、一年授权和终身授权,详细情况如下: ID Key Type T ..
-
有一个能容纳 1000 人的餐馆,他们将座位按顺序编号并记录在了数据库表中,每个客人就坐之后,服务员就会在座位表中标记一下,当客人离开后,就删除这个标记。某一时刻下的该表如下: [图片] 由于 ..
-
某企业财务需要为员工计算员工工资并将数据导出给银行,工资的计算首先需要参考员工的缺勤率和工作绩效,具体规则为: 基本工资*(1-缺勤率+绩效) 而后再缴纳个人所得税,个税的计算方法为,以所得工 ..
-
背景 报表作为业务决策的重要依据却有着不稳定的特点,随时需要根据新的需求进行调整和优化。这种频繁的调整和更新要求报表系统具备极高的灵活性和响应速度。换句话说,报表应用能够在不停止服务的情况下, ..
-
下面是某届奥运会的比赛数据。 国家表Country.txt: [图片] 运动员表Athlete.txt记录了每位运动员所属的国家: [图片] 比赛成绩表MatchResult.txt记录了所有 ..
-
为一个销售管理系统准备模拟数据进行测试。要求生成4张表,数据的要求分别是: 销售员表,要求有50名销售员,5个地区:NorthChina, SouthChina, CentralChina, ..
-
esProc在结构化文本文件上用简单SQL查询 结构化文本文件是指以tab分隔的TXT文件或是逗号分隔的csv文件,这类文件可以看成是数据表。使用esProc 中的简单SQL可以方便地应用到这 ..
-
esProc SPL在结构化文本文件上的常规运算 结构化文本文件是指以tab分隔的TXT文件或是逗号分隔的csv文件,这类文件可以看成是数据表。使用esProc SPL能够很方便地对这类文件进 ..
-
分组是常见的结构化数据计算,SQL 和 Python 都有相应的语句和函数来处理。不过,和 esProc SPL 提供的分组运算相比,这些语言都弱得多了。 常规的分组一般都会伴随着聚合,比如要 ..
-
如下是某企业 2009 年内的员工请假记录表LeaveRecords,员工每次请假的起始日期和结束日期都会记录在内: [图片] 下表是员工的详细信息表Employees: [图片] 请找出这一 ..
-
下面是一个企业订单情况的数据库内的一些表格,首先是 Customers 表,记录了客户 ID 和客户的账户余额: [图片] Orders 表记录了每个订单以及它的客户: [图片] OrderD ..
-
这是一个百货公司的数据库问题。数据库中有两个表,一个是商店促销时间的日历,促销记录表Promotion: [图片] 一个是全年的销售员销售额表,销售记录表SalesRecord: [图片] 现 ..