• •      •    283 浏览    •   2022-10-17 23:17:15

    自动标准化函数 

    A.numnorm()和P.numnorm(cn)可以对数值型变量执行标准化处理。 例如房价预测数据中的变量”LotArea”量纲比较大,对其进行归一化 A 1 =T('D://house_p ..
  • •      •    302 浏览    •   2022-10-11 10:27:29

    8.10 多表关联的动态行转列 

    相互关联的多个表进行动态行转列,根据字段值动态生成多列,然后将关联查询的数据填入。 根据学生表、成绩表和补考成绩表,计算每位学生的各科成绩、总成绩和补考成绩的汇总表。 [图片] 汇总表形式如下 ..
  • •      •    353 浏览    •   2022-10-11 10:24:24

    8.9 主子表关联的动态行转列 

    动态行转列,子表动态插入主表。 根据订单表和订单明细表,查询出每个客户每日购买产品的汇总表。 订单表和订单明细表是主子表关系,每个订单有多条明细数据。如下图: [图片] 订单明细表中每个订单的 ..
  • •      •    415 浏览    •   2022-10-17 23:17:52

    自动纠偏函数 

    纠偏,就是通过各种数学转换,使得变量的分布呈现或者近似正态分布,模型的拟合常常会有明显的提升。在SPL提供了自动纠偏函数,可以根据数据特点选择合适的纠偏变换进行纠偏。 A.corskew()和 ..
  • •      •    284 浏览    •   2022-10-10 09:38:39

    8.8 行转列,同时列间计算 

    在行转列的同时执行列间计算。 根据用户支付数据明细表,统计各个用户 2014 年每月应付金额的汇总表。 ID customID name amount_payable due_date amo ..
  • •      •    290 浏览    •   2022-10-10 09:30:58

    8.7 定位赋值法行转列 

    定位赋值行转列,动态生成新序表数据结构,最后根据行列位置直接赋值。 根据用户记录,动态生成用户列,统计用户每周在线情况。根据相互关联的用户表和记录表中,汇总统计 2018 年每周用户的活动情况 ..
  • 日期时间变量通常会进行以下处理: [图片] 在SPL中提供了可以自动处理日期时间变量的函数 A.datederive(T)和P.datederive(cn, T)可以对日期时间型变量衍生出多个 ..
  • •      •    269 浏览    •   2022-10-09 09:22:43

    8.6 多行转多行 

    多行转多行,多条记录合并计算,生成多条记录。 如根据打卡记录,整理员工每日的外出数据。在日常考勤信息表中,每卡每天有 7 条数据: Per_Code in_out Date Time Type ..
  • •      •    352 浏览    •   2022-10-09 09:19:18

    8.5 填充法行转列,列名动态生成 

    将行动态转换为列,根据记录计算动态生成列名,最后将所有数据一起填充进新序表。 如根据收入明细,统计每位员工各类收入的情况,类别自动生成: Name Source Income David Sa ..
  • •      •    377 浏览    •   2022-10-08 23:24:05

    分类变量平滑化 

    使用A.smooth(T)或P.smooth(cn, T)函数,可以将变量做平滑化处理,经过平滑化处理后可以消除映射成整数后数值大小的影响。 例如还是上一小节中的“Ticket”变量,对其做平 ..
  • •      •    292 浏览    •   2022-10-08 09:56:42

    8.4 动态行转列 

    动态行转列,是指转置时生成的字段不能事先指定,只能根据原字段的取值动态确定。 员工表如下: Name Dept Area Salary David Sales Beijing 8000 Dan ..
  • •      •    296 浏览    •   2022-10-08 09:54:04

    8.3 双向转置 

    双向转置,行转列,同时列转行。 按渠道分类的销售记录如下: Day Online Store 20190101 2400 1863 20190102 1814 670 20190103 373 ..
  • •      •    540 浏览    •   2022-10-07 22:59:22

    分类变量数值化 

    分类变量通常是字符形式,字符是无法直接被算法识别和计算的,必须转化成数值型数据。 在SPL中提供了可以自动处理分类变量的函数。 对于分类数不高于6的低频分类变量,可以使用A.bi()或P.bi ..
  • •      •    280 浏览    •   2022-10-07 11:15:21

    8.2 列转行 

    列转行,每一个要转置的字段都生成新的一行,字段名或对应名称转化为新字段的值,原字段值则转为另一新字段的值。 如根据学生成绩总表,生成单科成绩表。 原始表: StudentID Math Chi ..
  • •      •    342 浏览    •   2022-10-07 11:13:42

    8.1 行转列 

    行转列,将多行合并成一行,指定字段的特定值转换为新字段,新字段的值则取自于原行的其它字段。 根据成绩表,统计各班各科的最高分。 原始表: Class StudentID Subject Sco ..
  • •      •    287 浏览    •   2022-10-17 23:20:39

    修正异常值 

    异常值的处理方法: 删除含有异常值的记录:直接将含有异常值的记录删除; 视为缺失值:将异常值视为缺失值,利用缺失值处理的方法进行处理; 修正异常值:可用端点值或前后两个观测值的平均值修正该异常 ..
  • •      •    295 浏览    •   2022-10-06 10:54:30

    7.28 Apply 运算的复杂用法 

    将 3 个表的数据关联连接,生成新序表后分组汇总。 根据相互关联的员工收入表、订单表和订单明细表,为单笔订单的实际金额超过 1000 的销售人员,给予订单金额 5% 的业绩奖励。 [图片] 使 ..
  • •      •    361 浏览    •   2022-10-06 10:52:56

    7.27 Apply 运算退化为笛卡尔积 

    使用序列字段连接,计算叉积来生成新序表。 根据任课教师表和课程表,查询每个可能能够安排的老师名字。 Teachers: Teacher Branch Courses Petitti Matem ..
  • •      •    287 浏览    •   2022-10-05 21:42:21

    缺失值信息提取 

    提取单变量缺失信息 为每个包含缺失值的变量建立一个哑变量形式的新变量,用于将该变量的缺失信息标识出来。 在SPL中A.mi()和P.mi()会自动生成一个变量来标记缺失信息 例如,对titan ..
  • •      •    350 浏览    •   2023-07-30 10:20:30

    简单统计量填补 

    均值填补 A 1 =file('D://titanic.csv').import@qtc() 2 =A1.avg(Age) 3 =A1.run(Age=if(!Age,A2,Age)) 在ti ..
  • •      •    228 浏览    •   2022-10-04 20:20:54

    7.26 OuterApply 运算 

    对序表和序列值进行 Outer Apply 运算生成新序表。 根据发帖记录表,统计每位作者最常用的标签。 ID TITLE Author Label 1 Easy analysis of Ex ..
  • •      •    383 浏览    •   2022-10-04 20:18:15

    7.25 CrossApply 运算 

    遍历多个数据文件,对序表及序列值进行 Cross Apply 运算生成新序表。 遍历文件夹中存储的所有某小学在线教学终端调查表,统计各种终端占比。 [图片] ID STUDENT_NAME T ..
  • Excel 文件里有两列数据,分别是某地区房屋价格的预测值和真实值,对其进行误差评估 SalePrice_predictvalue SalePrice 205578.0852 208500 1 ..
  • •      •    296 浏览    •   2022-10-03 21:15:10

    分类模型评估:AUC,GINI,KS 

    除上述几个简单的计算指标外,通常还会用AUC,GINI,KS来评价模型的整体表现 还是使用上一小节泰坦尼克的预测数据titanic_export.csv,用到的变量有Survived_1_pe ..
  • 两个游标和有序集文件的快速关联查询,要求游标对第一个连接字段有序。 根据相互关联的订单表、退货表和产品信息表,查询 2015 年各类产品的退货总金额。 [图片] 使用 cs.joinx() 函 ..
关注乾学院公众号