-
例如,还是titanic.csv中的”Fare”变量,分别以3倍标准差(z=3)和5倍标准差为标准(z=5)对异常值进行标注。 A 1 =file('D://titanic.csv').imp ..
-
报表工具的架构,原本设计的很巧妙,稳定的服务和应用无缝集成到一起,由应用统一管理,随需而动的报表模板,独立在数据库和应用之外,互不干扰,不管是新增还是修改报表,只需要动模板和里面的 SQL 就 ..
-
在两个互相关联的表中,根据匹配的不存在性检测记录。 根据成绩表和学生表,查询所有科目均高于 80 分的学生。 Student ID Class Name … Score StudentID S ..
-
在两个表中,根据外键映射的不存在性检测查找记录。 根据销售表和客户表,查询 2014 年每个新增客户的销售总额。 Sales ID CustomerID OrderDate … Custome ..
-
纠偏,就是通过各种数学转换,使得变量的分布呈现或者近似正态分布,模型的拟合常常会有明显的提升。 常用的数学变换有:对数变换、幂变换(例如开根号、平方等)、倒数变换、指数变换、rank 变换等 ..
-
1.1.1 把数据转储到集文件 文本转储 A 1 =file(“Orders.txt”).cursor@t(CustomerID:string, OrderDate:datetime, Pro ..
-
在一个表中,通过复杂的自连接判断查找数据。 在订单表中,查询同一订单跨度超过一年的订单的销售额。 ID NUMBER AMOUNT DELIVERDATE ARRIVALDATE 10814 ..
-
在两个表中,根据多字段外键映射的存在性查找记录。 在成绩表和学生表中,统计一班男生的平均分。 Score StudentID Class Subject Score Student ID Cl ..
-
当分类变量的分类数较多时,可能会存在一些频数极小的类别,例如极少数分类,异常分类,疑似错误分类等情况,这时可以通过合并低频变量来降低分类个数。 例如Titanic.csv中的“Name”是一个 ..
-
许多做数据管理,数据治理的同学,经常会被数据库(仓库)中大量繁杂的数据表困扰,很多数据表并不是存储必要的基础数据的,而是在计算和查询中产生的中间表,这些中间表,经过常年累月的积累,往往会达到一 ..
-
在两个表中,根据非外键的匹配性检测查找记录,优化提速。 根据销售表和客户表,查询 2014 年各城市有销售记录的客户数量。 Sales ID CustomerID Date Amount Cu ..
-
在两个表中,根据非外键的匹配性检测查找记录。 根据成绩表和学生表,查询各班所有某科成绩超过 80 分的学生数量。 Score StudentID Subject Score Student I ..
-
把变量值按照从小到大的顺序排列,根据数据集样本个数等分为k 部分,每部分当作一个分箱,比如分箱数是 10,则每个箱内包含大约 10% 的样本量。 将”Fare”变量等频分箱 A 1 =file ..
-
T+0 的概念,运用比较广泛的是在金融领域,T(Transaction)表示交易日期,+0 就是指交易当天,+N 就代表交易的 N 天后 现在大数据、数据分析领域,也总用到这个概念,含义仍然相 ..
-
在两个表中,根据外键映射的存在性检测查找记录。 根据选课表和课程表,查询各班有多少学生选修了“Matlab”课程。 Course ID Subject Score SelectCourse I ..
-
在一个表中,根据较大集合的包含性判断来查找记录。 在销售表中,统计 2014 年大客户的每月销售额。 ID Customer SellerId Date Amount 10400 EASTC ..
-
等距分箱:将变量的取值范围分为k 个等宽的区间,每个区间当作一个分箱,这里只考虑边界,每个箱内的样本量可能不等。 例如,将”Fare”变量等距分箱 A 1 =file('D://titanic ..
-
在一个表中,根据集合的包含性判断查找记录。 在员工表中,统计一线城市各部门的平均工资。 ID NAME CITY SALARY 1 Rebecca Tianjin 7000 2 Ashley ..
-
递归调用函数解决海盗分金问题。 海盗分金问题: 5 个海盗抢得 100 枚金币,他们按抽签的顺序依次提方案:首先由 1 号提出分配方案,然后 5 人表决,投票要超过半数同意方案才被通过,否则他 ..
-
求助,相同的报表,链接 Windows 下的 oracle 数据库查询速度很快(2s 左右),链接 linux 下的 oracle 数据库查询速度很慢(15 秒或更久);当删除所有参数时,li ..
-
比率是指两个变量相除,用于连续型变量 比率也是特征组合的一种方法,特征组合是为了弥补线性模型无法表达非线性性质的不足的补充,有助于提升线性模型的表达能力 注意:在比率计算中,做分母的变量不能有 ..
-
变量交互是指两个变量相乘,可以是数值变量*数值变量,也可以是分类变量*分类变量。 组合特征是特征工程中非常重要的方法之一,它将两个或更多的类别属性组合成一个。当组合的特征要比单个特征更好时,这 ..
-
递归调用函数解决汉诺塔问题。 汉诺塔问题是递归的经典问题。把 A 杆上的圆盘全部移到 C 杆上,并仍保持原有顺序叠好。每次移动一个圆盘,移动时要始终保持大盘在下,小盘在上。 [图片] 盘子从小 ..
-
单表自连接后,查找所有上级引用。 在中国行政区划表中,列出各行政区的所有上级区域。。例如石家庄输出: China,Hebei,Shijiazhuang ID NAME PARENT_ID 1 ..
-
除了对变量本身做一些数学转换外,也可衍生一些反映和目标变量关系的变量,比如目标阳性样本比例,Odds encoding,log-odds encoding,数值目标均值 例如,泰坦尼克的目标变 ..