-
等距分箱:将变量的取值范围分为k 个等宽的区间,每个区间当作一个分箱,这里只考虑边界,每个箱内的样本量可能不等。 例如,将”Fare”变量等距分箱 A 1 =file('D://titanic ..
-
一、 SQL 及分析 查询SQL语句如下: select ps_partkey, sum(ps_supplycost * ps_availqty) as value from partsupp ..
-
在一个表中,根据集合的包含性判断查找记录。 在员工表中,统计一线城市各部门的平均工资。 ID NAME CITY SALARY 1 Rebecca Tianjin 7000 2 Ashley ..
-
递归调用函数解决海盗分金问题。 海盗分金问题: 5 个海盗抢得 100 枚金币,他们按抽签的顺序依次提方案:首先由 1 号提出分配方案,然后 5 人表决,投票要超过半数同意方案才被通过,否则他 ..
-
比率是指两个变量相除,用于连续型变量 比率也是特征组合的一种方法,特征组合是为了弥补线性模型无法表达非线性性质的不足的补充,有助于提升线性模型的表达能力 注意:在比率计算中,做分母的变量不能有 ..
-
变量交互是指两个变量相乘,可以是数值变量*数值变量,也可以是分类变量*分类变量。 组合特征是特征工程中非常重要的方法之一,它将两个或更多的类别属性组合成一个。当组合的特征要比单个特征更好时,这 ..
-
递归调用函数解决汉诺塔问题。 汉诺塔问题是递归的经典问题。把 A 杆上的圆盘全部移到 C 杆上,并仍保持原有顺序叠好。每次移动一个圆盘,移动时要始终保持大盘在下,小盘在上。 [图片] 盘子从小 ..
-
单表自连接后,查找所有上级引用。 在中国行政区划表中,列出各行政区的所有上级区域。。例如石家庄输出: China,Hebei,Shijiazhuang ID NAME PARENT_ID 1 ..
-
除了对变量本身做一些数学转换外,也可衍生一些反映和目标变量关系的变量,比如目标阳性样本比例,Odds encoding,log-odds encoding,数值目标均值 例如,泰坦尼克的目标变 ..
-
一、 SQL 及分析 查询SQL语句如下: select * from ( select c_custkey,c_name, sum(l_extendedprice * (1 - l_disc ..
-
单表自连接后,过滤出引用链上有指定值的记录,然后列出上级。 在中国行政区划表中,查询河北省下属行政区。 ID NAME PARENT_ID 1 China 0 11 Beijing 1 12 ..
-
单表自连接后,仅查找记录的上一级引用。 在中国行政区划表中,查询各行政区的上级区域名称。 ID NAME PARENT_ID 1 China 0 11 Beijing 1 12 Tianjin ..
-
正切和反正切变换是一种值域变换,它将数据在有穷域和无穷域中相互转化 例如,将泰坦尼克数据中的”Fare”变量进行反正切变换 A 1 =file('D://titanic.csv').impor ..
-
存储过程在各类数据计算场景中都非常的常见,因为单一的 SQL 在一些复杂的计算情况下能力不足,有了存储过程的补充和配合,才可以应付各类计算需求 报表中为什么会有存储过程 报表天天和数据计算打交 ..
-
一、 SQL 及分析 查询SQL语句如下: select nation, o_year, sum(amount) as sum_profit from ( select n_name as n ..
-
遍历目录,递归调用脚本汇总文件。 遍历指定目录及其子目录下所有文本类型文件,将每个文件中的第 17 行汇总到一个文件中。 [图片] 文本类型文件示例: 16 … 17 Middleware f ..
-
递归遍历指定目录下的所有文件。 某小学在线教学终端调查表的汇总整理,统计各终端占比。 [图片] ID STUDENT_NAME TERMINAL 1 Rebecca Moore Phone 2 ..
-
Box-Cox变换是Box和Cox在1964年提出的一种广义幂变换方法,是统计建模中常用的一种数据变换,用于连续量不满足正态分布的情况 Box-Cox变换的一般形式为: [图片] 例如,对房价 ..
-
一、 SQL 及分析 查询SQL语句如下: select o_year, sum(case when nation = 'CHINA' then volume else 0 end) / su ..
-
下面是某时刻,新冠状病毒世界各地确诊人数的 JSON 数据,要统计世界确诊人数。文件部分数据如下: [ {Region:'USA',Confirmed:[ {Region:'Californi ..
-
根据 JSON 格式的销售数据,计算 2014 年的总销售额。文件部分数据如下: [ {'YEAR':2013,'MONTH':7,'SALES': [ {'ID':10248,'CUSTOM ..
-
对数变换一般用于金融数据,可以把指数增长型的数据转化为线性增长 例如: A 1 =[1.26,1.58,2,2.51,3.16,3.98,5.01,6.31,7.94,10] 2 =A1.(l ..
-
关系数据库提供了 SQL,因而有较强的计算能力,但很遗憾的是,这个计算能力是封闭的。所谓计算封闭性,是指要被数据库计算和处理的数据,必须事先装入数据库之内,数据在数据库内部还是外部是很明确的。 ..
-
【摘要】 异步机制给了大数据运算更广阔的的遐想,我们经常期望通过一项技术或一个工具解决更多问题,异步机制也一样。当报表基于海量数据进行查询时,异步就是一个很好的选择,但查询明细相对简单,进行分 ..
-
【摘要】 使用数据库分页机制会遇到两个问题,1 翻页有时会有等待感,2 查询的同时数据库还在插入删除,会出现数据不一致的情况。为了解决这个问题,${article} 介绍了一种两阶段双异步线程 ..