图书 •
828 引用 •
203 回帖 •
3 关注
博客
关注
-
使用正则表达式,将字符串拆分为字符串序列。 从 html 文件中剔除所有注释(),部分内容如下:
-
使用“?”或“=”作为分隔符,将字符串分别拆分为两个字符串。 在某网站记载了用户访问的 URL,要查询使用频率最高的搜索条件。部分内容如下: ID User Website 1 Rebecca ..
-
无论是数据分析还是数据挖掘,首先都会浏览数据,查看一下数据的基本情况 SPL提供交互式的操作界面,这对数据分析用户来说非常友好。 比如泰坦尼克的数据,使用SPL进行查看代码如下: A 1 =f ..
-
用逗号作为分隔符,将字符串拆分为字符串序列。 查询客户采购的产品名称,选购多个产品时用逗号分隔。产品表和客户销售表部分数据如下: Product: ID Name Website R Repo ..
-
用制表符作为分隔符,将字符串拆分为字符串序列。 把日志文件整理成结构化数据(以 USERID,UNAME,IP,TIME,URL,BROWSER,LOCATION, MODULE 为字段的序表 ..
-
将字符串拆分为单词序列。 统计某篇文章中出现频率前三名的单词。文章部分内容如下: How to Call an SPL Script in Java esProc provides its o ..
-
将字符串拆分为字符序列。 统计某个网页源码里中括号外的逗号数量。网页源码部分内容如下: ABCDEF … 使用函数 A.split() 将字符串拆分成字符序列。 脚本: A B C 1 ..
-
将序表转换为 csv 格式,用逗号分隔记录中的每个字段值。 将部门表转换成 csv 格式,复制到系统剪切板。部门表如下: ID Name Manager 1 Administration 1 ..
-
将序列中的成员连成一串,连接时成员加引号。 查询每个部门的员工分布在哪些州,州名称用空格分隔。因为有的州名本身就有空格,所以要加引号区别。员工表如下: ID NAME SURNAME STAT ..
-
将序列中的成员连成一个字符串。 表 A 和表 B 的表结构相同,使用表 B 更新表 A。当表 B 的主键在表 A 中存在时更新记录,否则新增行。 表 A: ID Amount … 1 3063 ..
-
将字符串与其他类型的数值连接在一起。 下面是两个文本,在文本 2 中查找文本 1 的字符串,希望按下面形式返回: file1 like parks went out go out file2 ..
-
将两列字符串的值连接为一列。 查询纽约研发部门员工的全名和收入。员工表如下: ID NAME SURNAME STATE DEPT SALARY 1 Rebecca Moore Califor ..
-
有数据库表 TBLORDERS,数据如下所示: ORDERNUMBER STEP1_STATUS STEP1_START STEP1_END STEP2_STATUS STEP2_START ..
-
有数据库表 FIRSTTBL,部分数据如下所示: ID PROPERTY TYPE STRING INTEGER DATETIME BOLLEAN XML 1 firstname NVARCH ..
-
数据分栏,是将多行数据从纵向排列划分为 2 栏或多栏并排。 世界城市人口总表如下: Continent Country City Population Africa Egypt Cairo 6 ..
-
A.numnorm()和P.numnorm(cn)可以对数值型变量执行标准化处理。 例如房价预测数据中的变量”LotArea”量纲比较大,对其进行归一化 A 1 =T('D://house_p ..
-
相互关联的多个表进行动态行转列,根据字段值动态生成多列,然后将关联查询的数据填入。 根据学生表、成绩表和补考成绩表,计算每位学生的各科成绩、总成绩和补考成绩的汇总表。 [图片] 汇总表形式如下 ..
-
动态行转列,子表动态插入主表。 根据订单表和订单明细表,查询出每个客户每日购买产品的汇总表。 订单表和订单明细表是主子表关系,每个订单有多条明细数据。如下图: [图片] 订单明细表中每个订单的 ..
-
纠偏,就是通过各种数学转换,使得变量的分布呈现或者近似正态分布,模型的拟合常常会有明显的提升。在SPL提供了自动纠偏函数,可以根据数据特点选择合适的纠偏变换进行纠偏。 A.corskew()和 ..
-
在行转列的同时执行列间计算。 根据用户支付数据明细表,统计各个用户 2014 年每月应付金额的汇总表。 ID customID name amount_payable due_date amo ..
-
定位赋值行转列,动态生成新序表数据结构,最后根据行列位置直接赋值。 根据用户记录,动态生成用户列,统计用户每周在线情况。根据相互关联的用户表和记录表中,汇总统计 2018 年每周用户的活动情况 ..
-
日期时间变量通常会进行以下处理: [图片] 在SPL中提供了可以自动处理日期时间变量的函数 A.datederive(T)和P.datederive(cn, T)可以对日期时间型变量衍生出多个 ..
-
多行转多行,多条记录合并计算,生成多条记录。 如根据打卡记录,整理员工每日的外出数据。在日常考勤信息表中,每卡每天有 7 条数据: Per_Code in_out Date Time Type ..
-
将行动态转换为列,根据记录计算动态生成列名,最后将所有数据一起填充进新序表。 如根据收入明细,统计每位员工各类收入的情况,类别自动生成: Name Source Income David Sa ..
-
使用A.smooth(T)或P.smooth(cn, T)函数,可以将变量做平滑化处理,经过平滑化处理后可以消除映射成整数后数值大小的影响。 例如还是上一小节中的“Ticket”变量,对其做平 ..