图书 •
828 引用 •
203 回帖 •
3 关注
博客
关注
-
除了对变量本身做一些数学转换外,也可衍生一些反映和目标变量关系的变量,比如目标阳性样本比例,Odds encoding,log-odds encoding,数值目标均值 例如,泰坦尼克的目标变 ..
-
单表自连接后,过滤出引用链上有指定值的记录,然后列出上级。 在中国行政区划表中,查询河北省下属行政区。 ID NAME PARENT_ID 1 China 0 11 Beijing 1 12 ..
-
单表自连接后,仅查找记录的上一级引用。 在中国行政区划表中,查询各行政区的上级区域名称。 ID NAME PARENT_ID 1 China 0 11 Beijing 1 12 Tianjin ..
-
正切和反正切变换是一种值域变换,它将数据在有穷域和无穷域中相互转化 例如,将泰坦尼克数据中的”Fare”变量进行反正切变换 A 1 =file('D://titanic.csv').impor ..
-
遍历目录,递归调用脚本汇总文件。 遍历指定目录及其子目录下所有文本类型文件,将每个文件中的第 17 行汇总到一个文件中。 [图片] 文本类型文件示例: 16 … 17 Middleware f ..
-
递归遍历指定目录下的所有文件。 某小学在线教学终端调查表的汇总整理,统计各终端占比。 [图片] ID STUDENT_NAME TERMINAL 1 Rebecca Moore Phone 2 ..
-
Box-Cox变换是Box和Cox在1964年提出的一种广义幂变换方法,是统计建模中常用的一种数据变换,用于连续量不满足正态分布的情况 Box-Cox变换的一般形式为: [图片] 例如,对房价 ..
-
下面是某时刻,新冠状病毒世界各地确诊人数的 JSON 数据,要统计世界确诊人数。文件部分数据如下: [ {Region:'USA',Confirmed:[ {Region:'Californi ..
-
根据 JSON 格式的销售数据,计算 2014 年的总销售额。文件部分数据如下: [ {'YEAR':2013,'MONTH':7,'SALES': [ {'ID':10248,'CUSTOM ..
-
对数变换一般用于金融数据,可以把指数增长型的数据转化为线性增长 例如: A 1 =[1.26,1.58,2,2.51,3.16,3.98,5.01,6.31,7.94,10] 2 =A1.(l ..
-
在中国行政区划表中,查询河北省下属区县。部分数据如下: ID NAME PARENT_ID 1 China 0 11 Beijing 1 12 Tianjin 1 13 Hebei 1 … … ..
-
根据某公司组织结构表,查询北京分公司的下属机构,并列出其上级机构名称,多层的用逗号分隔。部分数据如下: ID ORG_NAME PARENT_ID 1 Head Office 0 2 Beij ..
-
这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1。 转化函数为: Z=(x−[图片 ..
-
单表自连接后,对所有记录递归查找指定字段的各级引用。 根据某公司组织结构表,查询各部门的级别(总部是 1 级,分公司 2 级,依此类推)。部分数据如下: ID ORG_NAME PARENT_ ..
-
递归运算是指直接或者间接地调用自身的运算方法。比如我们熟悉的汉诺塔问题,就是典型的递归运算。在实际应用中递归查询问题也很常见,比如我们想知道某个部门有哪些上级机构。单纯的查找这个部门的上级机构 ..
-
也称为离差标准化,是对原始数据的线性变换,使结果值映射到 [0 - 1] 之间。 转换函数:x∗=x−min/max−min,max:样本数据最大值,min:样本数据最小值 例如,房价预测的数 ..
-
将两个日期之间时间段等分为 N 段。 从 2014/01/20 开始,到 2015/01/20 之前(不含)的销售记录,按日期等分到 4 组,并分别存到文件中。销售表部分数据如下: ORDER ..
-
列出两个日期之间的日期序列。 重叠部分不重复计数时,求多个时间段包含的总天数。部分数据如下: ID Start End 1 2012/07/04 2012/07/16 2 2012/07/06 ..
-
date()函数可以将多个含有日期信息变量组合为日期变量 [图片] A 1 =create(year,month,day) 2 =A1.insert(100) 3 =A1.run(year=2 ..
-
列出两个日期之间的工作日序列。 列出从 2020/04/27 到 2020/05/08 区间内每个工作日值班的人员名称。考勤表部分内容如下: ID Date Name 1 2020/04/27 ..
-
计算 N 个工作日后的日期。 统计 2014 年中,各员工有几次超过 10 个工作日还没有解决客户问题。部分数据如下: ID CustomerID EmployeeId QuestionDat ..
-
线性回归模型填补是模型填补的一种,以需要填补的变量为因变量,其他变量为自变量,利用因变量非缺失部分对应的样本来训练模型,然后用模型对缺失部分的数据进行填补。 例如,使用线性回归模型填补tita ..
-
计算 N 个月前的日期。 查询 2014/05/21 之前三个月内的总销售额,销售表部分数据如下: ORDERID CUSTOMERID EMPLOYEEID ORDERDATE AMOUNT ..
-
根据出生日期计算年龄。 查询每个部门员工的平均年龄。员工表如下: ID NAME BIRTHDAY HIREDATE DEPT SALARY 1 Rebecca 1974/11/20 2005 ..
-
K-means聚类又称为快速聚类,是一种需要事先确定类别个数的聚类方法。使用K-means聚类可以将全部样本分成若干个组,如果假定包含缺失值的变量在不同分组具有不同的取值,则可以使用该变量非缺 ..