-
[链接]3.2.1 集文件 SQL SELECT count (DISTINCT CustomerID) iNum,count(1) Num,EmployeeID,EmployeeName F ..
-
一般业务数据都有发生时间属性,当时间跨度比较长时,查询统计往往需要先按时间段过滤。数据以时间有序存储时可以提升过滤速度。 [链接]3.1.1 集文件 存量数据:将数据读出时按时间排序,然后写入 ..
-
SQL WITH m AS( SELECT *, row_number() OVER(PARTITION BY year(OrderDate),month(OrderDate)) r FROM ..
-
SQL SELECT EmployeeID, EmployeeName,sum(Amount) AS Amount FROM Orders WHERE OrderDate>='2022- ..
-
一、 SQL 及分析 查询SQL语句如下: select s_name,s_address from supplier,nation where s_suppkey in ( select p ..
-
查询今年每个月金额最大的三个订单 SQL WITH m AS( SELECT *,rank() OVER(PARTITION BY year(OrderDate),month(OrderDat ..
-
在SPL中svm()中包含了C-SVC,nu-SVC,epsilon-SVR和nu-SVR五种算法,可用于解决分类问题和回归问题。详细的语法和参数说明见函数参考文档http://d.raqso ..
-
一、 SQL 及分析 查询SQL语句如下: select sum(l_extendedprice * (1 - l_discount)) as revenue from lineitem,pa ..
-
使用分布式集群来处理大数据是当前的主流,将一个大任务拆分成多个子任务分布到多个节点进行处理通常能获得显著的性能提升。因此,只要发现处理能力不足就可以通过增加节点的方式进行扩容,这也是很多拥趸者 ..
-
查询今年每个月金额最大的三个订单的订单额 SQL WITH m AS( SELECT year(OrderDate) years, month(OrderDate) months, Amoun ..
-
训练集和测试集中0/1 类(目标变量)的比例接近一致 A 1 =file('D://titanic.csv').import@qtc() 2 =A1.group@p(Survived) 3 = ..
-
一、 SQL 及分析 查询SQL语句如下: select * from ( select c_name, c_custkey, o_orderkey, o_orderdate, o_total ..
-
选出金额最大的订单 SQL WITH m AS ( SELECT max(Amount) mta FROM Orders WHERE OrderDate>='2022-01-01') S ..
-
在泰坦尼克数据中按照7:3 比例随机划分训练集和测试集 A 1 =file('D://titanic.csv').import@qtc() 2 =A1.group(rand()<=0.3 ..
-
一、 SQL 及分析 查询SQL语句如下: select sum(l_extendedprice) / 7.0 as avg_yearly from lineitem,part where p ..
-
查询单次购买数量超过 5 的产品及其价格、单位 SQL SELECT DISTINCT ProductID,Price,Unit FROM Orders WHERE Quantity>= ..
-
一、 SQL 及分析 查询SQL语句如下: select p_brand,p_type,p_size, count(distinct ps_suppkey) as supplier_cnt f ..
-
过抽样是通过增加样本中小类样本的数据量来实现样本均衡。其中较为简单的方式是直接复制小类样本,形成数量上的均衡。 对泰坦尼克样本数据过抽样如下: A 1 =file('D://titanic.c ..
-
按月统计下单的客户数量 SQL SELECT count(DISTINCT CustomerID) num,year(OrderDate) years, month(OrderDate) mo ..
-
欠抽样是通过减少多数类样本的样本数量来实现样本均衡。其中比较简单直接的方法就是随机去掉一些数据来减少多数类样本的规模。 例如,泰坦尼克数据中目标变量Survived是一个取值为0,1的二值变量 ..
-
将取值可能有限的枚举字符串转换成整数后可以获得更好的存储和计算性能。 [链接]1.4.1 转储时转换 将枚举字段用取值序列的序号代替,这里以 ShipVia 举例 A 1 =file(“Shi ..
-
根据一个表中数据,通过与子查询中所有结果比较筛选记录。根据员工表,查询哪些员工的工资比所有销售部员工都要高。 ID NAME DEPT SALARY 1 Rebecca R&D 700 ..
-
将日期转换成小整数后能获得更好的存储和计算性能。 [链接]1.3.1 转储时转换 SPL 提供了一种很省空间的方法,用 days@o(date) 把年月转换成距离 1970 年起的月数,而日用 ..
-
在两个表中,根据匹配的存在性检测查找记录。 根据成绩表和学生表,查询两科分数差超过 30 分的学生。 Student ID Class Name … Score StudentID Subje ..
-
根据一个表中数据,查询与另一个表中能够匹配的记录,在 SQL 处理中通过双重否定可以减少运算量。 根据选课表、课程表和学生表,查询选修了所有课程的学生。 Student ID Name Cla ..