-
A.numnorm()和P.numnorm(cn)可以对数值型变量执行标准化处理。 例如房价预测数据中的变量”LotArea”量纲比较大,对其进行归一化 A 1 =T('D://house_p ..
-
相互关联的多个表进行动态行转列,根据字段值动态生成多列,然后将关联查询的数据填入。 根据学生表、成绩表和补考成绩表,计算每位学生的各科成绩、总成绩和补考成绩的汇总表。 [图片] 汇总表形式如下 ..
-
动态行转列,子表动态插入主表。 根据订单表和订单明细表,查询出每个客户每日购买产品的汇总表。 订单表和订单明细表是主子表关系,每个订单有多条明细数据。如下图: [图片] 订单明细表中每个订单的 ..
-
纠偏,就是通过各种数学转换,使得变量的分布呈现或者近似正态分布,模型的拟合常常会有明显的提升。在SPL提供了自动纠偏函数,可以根据数据特点选择合适的纠偏变换进行纠偏。 A.corskew()和 ..
-
在行转列的同时执行列间计算。 根据用户支付数据明细表,统计各个用户 2014 年每月应付金额的汇总表。 ID customID name amount_payable due_date amo ..
-
定位赋值行转列,动态生成新序表数据结构,最后根据行列位置直接赋值。 根据用户记录,动态生成用户列,统计用户每周在线情况。根据相互关联的用户表和记录表中,汇总统计 2018 年每周用户的活动情况 ..
-
日期时间变量通常会进行以下处理: [图片] 在SPL中提供了可以自动处理日期时间变量的函数 A.datederive(T)和P.datederive(cn, T)可以对日期时间型变量衍生出多个 ..
-
多行转多行,多条记录合并计算,生成多条记录。 如根据打卡记录,整理员工每日的外出数据。在日常考勤信息表中,每卡每天有 7 条数据: Per_Code in_out Date Time Type ..
-
将行动态转换为列,根据记录计算动态生成列名,最后将所有数据一起填充进新序表。 如根据收入明细,统计每位员工各类收入的情况,类别自动生成: Name Source Income David Sa ..
-
使用A.smooth(T)或P.smooth(cn, T)函数,可以将变量做平滑化处理,经过平滑化处理后可以消除映射成整数后数值大小的影响。 例如还是上一小节中的“Ticket”变量,对其做平 ..
-
动态行转列,是指转置时生成的字段不能事先指定,只能根据原字段的取值动态确定。 员工表如下: Name Dept Area Salary David Sales Beijing 8000 Dan ..
-
双向转置,行转列,同时列转行。 按渠道分类的销售记录如下: Day Online Store 20190101 2400 1863 20190102 1814 670 20190103 373 ..
-
分类变量通常是字符形式,字符是无法直接被算法识别和计算的,必须转化成数值型数据。 在SPL中提供了可以自动处理分类变量的函数。 对于分类数不高于6的低频分类变量,可以使用A.bi()或P.bi ..
-
列转行,每一个要转置的字段都生成新的一行,字段名或对应名称转化为新字段的值,原字段值则转为另一新字段的值。 如根据学生成绩总表,生成单科成绩表。 原始表: StudentID Math Chi ..
-
行转列,将多行合并成一行,指定字段的特定值转换为新字段,新字段的值则取自于原行的其它字段。 根据成绩表,统计各班各科的最高分。 原始表: Class StudentID Subject Sco ..
-
异常值的处理方法: 删除含有异常值的记录:直接将含有异常值的记录删除; 视为缺失值:将异常值视为缺失值,利用缺失值处理的方法进行处理; 修正异常值:可用端点值或前后两个观测值的平均值修正该异常 ..
-
将 3 个表的数据关联连接,生成新序表后分组汇总。 根据相互关联的员工收入表、订单表和订单明细表,为单笔订单的实际金额超过 1000 的销售人员,给予订单金额 5% 的业绩奖励。 [图片] 使 ..
-
使用序列字段连接,计算叉积来生成新序表。 根据任课教师表和课程表,查询每个可能能够安排的老师名字。 Teachers: Teacher Branch Courses Petitti Matem ..
-
提取单变量缺失信息 为每个包含缺失值的变量建立一个哑变量形式的新变量,用于将该变量的缺失信息标识出来。 在SPL中A.mi()和P.mi()会自动生成一个变量来标记缺失信息 例如,对titan ..
-
均值填补 A 1 =file('D://titanic.csv').import@qtc() 2 =A1.avg(Age) 3 =A1.run(Age=if(!Age,A2,Age)) 在ti ..
-
对序表和序列值进行 Outer Apply 运算生成新序表。 根据发帖记录表,统计每位作者最常用的标签。 ID TITLE Author Label 1 Easy analysis of Ex ..
-
遍历多个数据文件,对序表及序列值进行 Cross Apply 运算生成新序表。 遍历文件夹中存储的所有某小学在线教学终端调查表,统计各种终端占比。 [图片] ID STUDENT_NAME T ..
-
Excel 文件里有两列数据,分别是某地区房屋价格的预测值和真实值,对其进行误差评估 SalePrice_predictvalue SalePrice 205578.0852 208500 1 ..
-
除上述几个简单的计算指标外,通常还会用AUC,GINI,KS来评价模型的整体表现 还是使用上一小节泰坦尼克的预测数据titanic_export.csv,用到的变量有Survived_1_pe ..
-
两个游标和有序集文件的快速关联查询,要求游标对第一个连接字段有序。 根据相互关联的订单表、退货表和产品信息表,查询 2015 年各类产品的退货总金额。 [图片] 使用 cs.joinx() 函 ..