-
将日期转换成小整数后能获得更好的存储和计算性能。 [链接]1.3.1 转储时转换 SPL 提供了一种很省空间的方法,用 days@o(date) 把年月转换成距离 1970 年起的月数,而日用 ..
-
在两个表中,根据匹配的存在性检测查找记录。 根据成绩表和学生表,查询两科分数差超过 30 分的学生。 Student ID Class Name … Score StudentID Subje ..
-
根据一个表中数据,查询与另一个表中能够匹配的记录,在 SQL 处理中通过双重否定可以减少运算量。 根据选课表、课程表和学生表,查询选修了所有课程的学生。 Student ID Name Cla ..
-
例如,还是titanic.csv中的”Fare”变量,分别以3倍标准差(z=3)和5倍标准差为标准(z=5)对异常值进行标注。 A 1 =file('D://titanic.csv').imp ..
-
一、 SQL 及分析 查询SQL语句如下: create view revenue (supplier_no, total_revenue) as select l_suppkey, sum( ..
-
报表工具的架构,原本设计的很巧妙,稳定的服务和应用无缝集成到一起,由应用统一管理,随需而动的报表模板,独立在数据库和应用之外,互不干扰,不管是新增还是修改报表,只需要动模板和里面的 SQL 就 ..
-
组表支持列存,在遍历时能获得更好的性能。 [链接]1.2.1 把数据表转储成组表 文本转储 A 1 =file(“Orders.txt”).cursor@t(CustomerID:string ..
-
在两个互相关联的表中,根据匹配的不存在性检测记录。 根据成绩表和学生表,查询所有科目均高于 80 分的学生。 Student ID Class Name … Score StudentID S ..
-
在两个表中,根据外键映射的不存在性检测查找记录。 根据销售表和客户表,查询 2014 年每个新增客户的销售总额。 Sales ID CustomerID OrderDate … Custome ..
-
纠偏,就是通过各种数学转换,使得变量的分布呈现或者近似正态分布,模型的拟合常常会有明显的提升。 常用的数学变换有:对数变换、幂变换(例如开根号、平方等)、倒数变换、指数变换、rank 变换等 ..
-
1.1.1 把数据转储到集文件 文本转储 A 1 =file(“Orders.txt”).cursor@t(CustomerID:string, OrderDate:datetime, Pro ..
-
一、 SQL 及分析 查询SQL语句如下: select 100.00 * sum( case when p_type like 'PROMO%' then l_extendedprice * ..
-
在一个表中,通过复杂的自连接判断查找数据。 在订单表中,查询同一订单跨度超过一年的订单的销售额。 ID NUMBER AMOUNT DELIVERDATE ARRIVALDATE 10814 ..
-
在两个表中,根据多字段外键映射的存在性查找记录。 在成绩表和学生表中,统计一班男生的平均分。 Score StudentID Class Subject Score Student ID Cl ..
-
当分类变量的分类数较多时,可能会存在一些频数极小的类别,例如极少数分类,异常分类,疑似错误分类等情况,这时可以通过合并低频变量来降低分类个数。 例如Titanic.csv中的“Name”是一个 ..
-
许多做数据管理,数据治理的同学,经常会被数据库(仓库)中大量繁杂的数据表困扰,很多数据表并不是存储必要的基础数据的,而是在计算和查询中产生的中间表,这些中间表,经过常年累月的积累,往往会达到一 ..
-
数据准备 使用到的数据表结构如下: 表 字段名 含义 Categories [CategoryID] [int] NOT NULL, [CategoryName] [nvarchar](50) ..
-
一、 SQL 及分析 查询SQL语句如下: select c_count, count(*) as custdist from ( select c_custkey, count(o_orde ..
-
在两个表中,根据非外键的匹配性检测查找记录,优化提速。 根据销售表和客户表,查询 2014 年各城市有销售记录的客户数量。 Sales ID CustomerID Date Amount Cu ..
-
在两个表中,根据非外键的匹配性检测查找记录。 根据成绩表和学生表,查询各班所有某科成绩超过 80 分的学生数量。 Score StudentID Subject Score Student I ..
-
把变量值按照从小到大的顺序排列,根据数据集样本个数等分为k 部分,每部分当作一个分箱,比如分箱数是 10,则每个箱内包含大约 10% 的样本量。 将”Fare”变量等频分箱 A 1 =file ..
-
一、 SQL 及分析 查询SQL语句如下: select l_shipmode, sum(case when o_orderpriority = '1-URGENT' or o_orderpr ..
-
T+0 的概念,运用比较广泛的是在金融领域,T(Transaction)表示交易日期,+0 就是指交易当天,+N 就代表交易的 N 天后 现在大数据、数据分析领域,也总用到这个概念,含义仍然相 ..
-
在两个表中,根据外键映射的存在性检测查找记录。 根据选课表和课程表,查询各班有多少学生选修了“Matlab”课程。 Course ID Subject Score SelectCourse I ..
-
在一个表中,根据较大集合的包含性判断来查找记录。 在销售表中,统计 2014 年大客户的每月销售额。 ID Customer SellerId Date Amount 10400 EASTC ..