图书 •
828 引用 •
203 回帖 •
3 关注
博客
关注
-
将行动态转换为列,根据记录计算动态生成列名,最后将所有数据一起填充进新序表。 如根据收入明细,统计每位员工各类收入的情况,类别自动生成: Name Source Income David Sa ..
-
使用A.smooth(T)或P.smooth(cn, T)函数,可以将变量做平滑化处理,经过平滑化处理后可以消除映射成整数后数值大小的影响。 例如还是上一小节中的“Ticket”变量,对其做平 ..
-
动态行转列,是指转置时生成的字段不能事先指定,只能根据原字段的取值动态确定。 员工表如下: Name Dept Area Salary David Sales Beijing 8000 Dan ..
-
双向转置,行转列,同时列转行。 按渠道分类的销售记录如下: Day Online Store 20190101 2400 1863 20190102 1814 670 20190103 373 ..
-
分类变量通常是字符形式,字符是无法直接被算法识别和计算的,必须转化成数值型数据。 在SPL中提供了可以自动处理分类变量的函数。 对于分类数不高于6的低频分类变量,可以使用A.bi()或P.bi ..
-
列转行,每一个要转置的字段都生成新的一行,字段名或对应名称转化为新字段的值,原字段值则转为另一新字段的值。 如根据学生成绩总表,生成单科成绩表。 原始表: StudentID Math Chi ..
-
行转列,将多行合并成一行,指定字段的特定值转换为新字段,新字段的值则取自于原行的其它字段。 根据成绩表,统计各班各科的最高分。 原始表: Class StudentID Subject Sco ..
-
异常值的处理方法: 删除含有异常值的记录:直接将含有异常值的记录删除; 视为缺失值:将异常值视为缺失值,利用缺失值处理的方法进行处理; 修正异常值:可用端点值或前后两个观测值的平均值修正该异常 ..
-
将 3 个表的数据关联连接,生成新序表后分组汇总。 根据相互关联的员工收入表、订单表和订单明细表,为单笔订单的实际金额超过 1000 的销售人员,给予订单金额 5% 的业绩奖励。 [图片] 使 ..
-
使用序列字段连接,计算叉积来生成新序表。 根据任课教师表和课程表,查询每个可能能够安排的老师名字。 Teachers: Teacher Branch Courses Petitti Matem ..
-
提取单变量缺失信息 为每个包含缺失值的变量建立一个哑变量形式的新变量,用于将该变量的缺失信息标识出来。 在SPL中A.mi()和P.mi()会自动生成一个变量来标记缺失信息 例如,对titan ..
-
均值填补 A 1 =file('D://titanic.csv').import@qtc() 2 =A1.avg(Age) 3 =A1.run(Age=if(!Age,A2,Age)) 在ti ..
-
对序表和序列值进行 Outer Apply 运算生成新序表。 根据发帖记录表,统计每位作者最常用的标签。 ID TITLE Author Label 1 Easy analysis of Ex ..
-
遍历多个数据文件,对序表及序列值进行 Cross Apply 运算生成新序表。 遍历文件夹中存储的所有某小学在线教学终端调查表,统计各种终端占比。 [图片] ID STUDENT_NAME T ..
-
Excel 文件里有两列数据,分别是某地区房屋价格的预测值和真实值,对其进行误差评估 SalePrice_predictvalue SalePrice 205578.0852 208500 1 ..
-
除上述几个简单的计算指标外,通常还会用AUC,GINI,KS来评价模型的整体表现 还是使用上一小节泰坦尼克的预测数据titanic_export.csv,用到的变量有Survived_1_pe ..
-
两个游标和有序集文件的快速关联查询,要求游标对第一个连接字段有序。 根据相互关联的订单表、退货表和产品信息表,查询 2015 年各类产品的退货总金额。 [图片] 使用 cs.joinx() 函 ..
-
数据量不大的表生成游标后,与有序集文件快速关联查询。 根据相互关联的销售表和客户表,查询 2014 年销售总额前 3 名的客户名称。 [图片] 使用 cs.joinx() 函数与可分段集文件进 ..
-
两个大数据表与一个有序的集文件相互关联查询。 根据相互关联的订单表、订单明细表和产品表,查询 2014 年 1 月各种产品的销售总量。其中订单表与订单明细表为大数据文件,产品表为对 ID 有序 ..
-
两个表相互关联,计算叉积时使用左连接。 根据相互关联的社区人员表和年龄分段表,查询社区居民所处的年龄段。 Community: ID Name Age 1 David 28 2 Daniel ..
-
计算各种评估指标之前,首先需要计算混肴矩阵: 真正类数(True Positive , TP):被模型预测为正的正样本。 假正类数(False Positive , FP):被模型预测为正的负 ..
-
lineplan(A,B,C)可用来求解线性约束条件下线性目标函数极值问题。 注意在获取参数时要将问题转化为标准形式,标准形式为: 目标函数:[图片] 线性不等式约束:[图片] 例如,求解由线 ..
-
通过叉积过滤,计算矩阵相乘。 Matrix row col value [图片] 本例的数学公式如下: [图片] 使用 xjoin() 函数计算叉积,同时可以根据条件过滤。 脚本: A 1 = ..
-
两个相互关联的表,获得它们的叉积后过滤计算。 根据三明治表和配料表,查询哪两种三明治的配料最接近。 Sandwich: ID Name Price 1 BLT 5.5 2 Reuben 7.0 ..
-
使用kmeans()可以将样本按照指定的类数,进行聚类。目前SPL中的聚类数暂且只支持2。 例如,有一组样本[[1,2,3,4],[2,3,1,2],[1,1,1,-1],[1,0,-2,-6 ..