图书 •
869 引用 •
255 回帖 •
4 关注
博客
关注
-
数据中远离其他点的数据是不常见数据,比较数据中的每个点与其他所有点的距离(绝对差)之和,以最小距离和作为基准,超过该基准一定倍数的点就是异常值。 找出距离其他点都“不远”的数据,可以认为这些是 ..
-
有如下姓名数据: [图片] 判断若有重名则 dup 填 1,否则填 0,在 B2 格填入公式: =spl('=if(?1.conj().select(~==?2).count()>1,1 ..
-
例如,还是titanic.csv中的”Fare”变量,分别以3倍标准差(z=3)和5倍标准差为标准(z=5)对异常值进行标注。 A 1 =file('D://titanic.csv').imp ..
-
相互关联的表,通过多字段主键左连接筛选记录。 根据相互关联的产品表、订单明细表和订单回款表,查询 2014 年有回款记录,且单笔订单金额超过 500 的产品名称。 [图片] 使用 A.join ..
-
多空布林线(BBIBOLL)是以多空线为中心线,多空线的标准差为带宽的轨道线。UPR 线为压力线, 对股价有压制作用,DWN 线为支撑线, 对股价具有支撑作用,BBIBOLL 线为中轴线。 计 ..
-
-
当分类变量的分类数较多时,可能会存在一些频数极小的类别,例如极少数分类,异常分类,疑似错误分类等情况,这时可以通过合并低频变量来降低分类个数。 例如Titanic.csv中的“Name”是一个 ..
-
有各个国家的语言人口占比表,其部分数据如下: CountryCode Language Percentage England English 90% America English 70% C ..
-
代码: =spl('=periods@mox(''2018-03-31'',''2019-03-01'',1)') 说明:生成 2018-03-31 到 2019-03-01 之间间隔 1 月 ..
-
两个大数据表与一个有序的集文件相互关联查询。 根据相互关联的订单表、订单明细表和产品表,查询 2014 年 1 月各种产品的销售总量。其中订单表与订单明细表为大数据文件,产品表为对 ID 有序 ..
-
纠偏,就是通过各种数学转换,使得变量的分布呈现或者近似正态分布,模型的拟合常常会有明显的提升。 常用的数学变换有:对数变换、幂变换(例如开根号、平方等)、倒数变换、指数变换、rank 变换等 ..
-
把变量值按照从小到大的顺序排列,根据数据集样本个数等分为k 部分,每部分当作一个分箱,比如分箱数是 10,则每个箱内包含大约 10% 的样本量。 将”Fare”变量等频分箱 A 1 =file ..
-
将标准 SQL 语句翻译成指定数据库所使用的格式。 某公司的销售数据,部分存储在数据库 oracle 中,部分存储在数据库 mysql 中。求 2015 年 3 月 18 日到 7 月 18 ..
-
问题 在一篇正规的英文文档中,单词都会以空格、逗号、句号或回车分隔,“-”符号表示连接回车符前后的字符为一个单词。 现有一篇符合上述特征的文档,请找出其中一共出现过多少个不同的单词,以及每个单 ..
-
A.compair(),对复数序列A的成员排序,并将复共轭对组组合在一起。具体排序方式见函数函数参考。 A 1 =[[1,1],[3,-2],[5,9],[5,-9],[3,2],[1,-1] ..
-
在两个关联的表中,根据多字段关联条件筛选记录后,分组汇总。 根据相互关联的分数表和学生资料表,查询一班每个学生的各科总分。 [图片] 使用 A.join() 函数的 @i 选项,删除不匹配的记 ..
-
有如下日产品销售额的 Excel 表格: [图片] 请找出每天日销售额最高的产品及其销售额: =spl('=E(?1).group(OrderDate).(~.maxp(Sales))',A1 ..
-
[链接]约定 大多数的 Python 代码都会用到 pandas 和 numpy 这两个包,所以默认 Python 代码开始都会导入这两个包。即: import pandas as pd im ..
-
原值的波动可能比较频繁,但整体上呈现某一种趋势,主线就是描述这种趋势的衍生序列。 通俗的讲,将原值平滑后就可以描述原值的趋势。平滑化最常见的手段的就是平均,具体到时间序列就是移动平均。 时间序 ..
-
有一列混合了字符和数字的数据,其中数字可能在多处出现,且出现规律不定: [图片] 将每一行中的所有数字分离出来,并将分离出来的结果放置到 B 列,期望效果如下图: [图片] 在 B1 写入: ..
-
循环计算迭代求和的结果。 根据上证指数表,计算 2019 年每个交易日的全年累计成交金额。上证指数表部分数据如下: Date Open Close Amount 2019/12/31 3036 ..
-
比较两个序列中各个位置的成员是否全部相等。 下面是随机抽样后生成的文件,比较两次随机抽样是否选出了相同的序号。文件部分数据如下: ID Predicted_Y Original_Y 10 0. ..
-
无论是数据分析还是数据挖掘,首先都会浏览数据,查看一下数据的基本情况 SPL提供交互式的操作界面,这对数据分析用户来说非常友好。 比如泰坦尼克的数据,使用SPL进行查看代码如下: A 1 =f ..
-
使用“?”或“=”作为分隔符,将字符串分别拆分为两个字符串。 在某网站记载了用户访问的 URL,要查询使用频率最高的搜索条件。部分内容如下: ID User Website 1 Rebecca ..
-
有数据如下: [图片] 按 Maths、English、PE 三列顺序组合逆序: =spl('=E(?).sort(Maths:-1,English:-1,PE:-1)',A1:E12) [图 ..