图书 •
828 引用 •
203 回帖 •
3 关注
博客
关注
-
例如在泰坦尼克的数据中,”Embarked”字段有两个缺失值,直接删除缺失的样本 A 1 =file('D://titanic.csv').import@qtc() 2 =A1.select( ..
-
计算两个日期时间数据相差的分钟数。 对于每个 ID, Value 第一次出现 1 开始累计到 0 为止,如果 0 一直没有出现,就和系统时间比。部分数据如下: ID Time Value 1 ..
-
计算两个日期时间数据相差的天数。 查询 2015 年发货时间超过 30 天的订单。订单表如下: ID CustomerID OrderDate DeliveryDate Amount 1024 ..
-
数据中常有一些质量比较差或对建模没有意义的变量,可以定义一些规则,对其进行直接删除,以减少计算量,比如 (1)缺失率过高的变量 (2)单值变量 (3)分类数过多的变量 A 1 =file('D ..
-
计算 N 天后的日期。 查询 2015 年,第 2 天内发货且发货后 3 天内到货的订单。订单表如下: ID CustomerID OrderDate DeliveryDate Arrival ..
-
解析 HTML 文件,读出序表。 从 HTML 文件中解析出成绩表,并统计每个学生的总分。 … CLASSSTUDENTIDSUBJECTSCORE Class one1Math77 Cl ..
-
MAD 定义为,一元序列 Xi同其中位数偏差的绝对值的中位数 MAD=median(|Xi−median(X)|) 例如,使用MAD方法检测Fare变量的异常值,阈值取3.5 A 1 =fil ..
-
解析 HTML 文件,分析正文中的信息。 查找 HTML 文件的正文中有哪些数字。文件部分内容如下: Stack Overflow - Where Developers Learn, S ..
-
将标准 SQL 语句翻译成指定数据库所使用的格式。 某公司的销售数据,部分存储在数据库 oracle 中,部分存储在数据库 mysql 中。求 2015 年 3 月 18 日到 7 月 18 ..
-
可能的异常值:|z|>2 高度可疑异常值:|z|>3 [图片] 使用Z-score方法对Fare变量检测异常值 A 1 =file('D://titanic.csv').impor ..
-
修改 SQL 语句中的过滤条件。 下面的 SQL 语句用于选出销售部门收入大于 10000 的员工,将过滤条件中的部门修改为研发部门。 select EID,NAME,SURNAME,DEPT ..
-
使用代码解析序表中的字符型字段。 求 80 后的平均工资,年龄需要从证件号码中提取。员工表部分数据如下: ID Name Identification Salary 1 Rebecca Dri ..
-
IQR=QU-QL 在QU+1.5IQR 和 QL-1.5IQR 处画两条与中位线一样的线段,称其为内栏 在QU+3IQR 和 QL-3IQR 处画两条线段,称其为外栏 落在内栏和外栏之间的观 ..
-
用正则表达式解析不定行文本数据。 日志文件由数量不定的多行组成,想要解析成结构化数据。部分日志内容如下: [图片] 函数 A.regex(rs,Fi) 用正则表达式 rs 在序列 A 的字符串 ..
-
用正则表达式解析序表中的字符型字段。 从客户地址中取出路牌号(数字号码)。客户表部分数据如下: ID Name City Address 1 VINET Beijing 124 Guangmi ..
-
计算泰坦尼克数据中各变量缺失的数量和缺失率 A 1 =file('D://titanic.csv').import@qtc() 2 =A1.fname() 3 =A2.((y=~,A1.ali ..
-
有 Base64 编码串:eyJhIjo2MywiYyI6Mjk4LCJuIjoxLCJzIjoxLCJlIjo0MCwicCI6NH0= 需要将其转码后的 json 串({“a”:63,“c ..
-
将字符串解析为序表。 系统剪贴板中复制了中国主要城市的 GDP 和人口数据,将其输出成 csv 格式文件。部分内容如下: ID City GDP Population 1 Shanghai 3 ..
-
在SPL中可以使用pearson和spearman来评估变量之间关系的函数 例如,在房价预测的数据中,分析房屋的居住面积GrLivArea和销售价格SalePrice之间的关系 A 1 =fi ..
-
在拆分字符串时,将字串解析为合适类型的数值。 有课程表和选课表,查询有哪些课没有学生选修。其中选课表可以多选,用逗号分隔,部分数据如下: Course: ID NAME TEACHERID 1 ..
-
自动解析单个字符串为相应的数据类型。 以奥运会奖牌榜为例,查询哪几届奥运会中国奖牌榜排名比俄罗斯靠前。 Game Nation Medal 30 USA [46,29,29] 30 China ..
-
连续型数据属于定量数据,对于定量数据通常可以从集中趋势测度、分散测度、相对位置测度和对称性测度四个维度来分析。 [图片] 例如泰坦尼克数据中有一个连续型变量”Age”,表示乘客的年龄,探索代码 ..
-
将百分比字符串解析为数值。 根据泰坦尼克号生存模型结果,统计生存概率超过 80% 的人员中,女性所占比例。部分数据如下: Survived PassengerId Pclass Name Se ..
-
将字符串解析为数值。 模型表现表记录了不同模型的各种指标,想要选出其中的数值目标模型(ModelType 是 2),并以指标为列名展现。其中每个模型的指标是按同一次序输出到文件中的。部分数据如 ..
-
分类数据属于定性数据,通常可以从以下几个维度来探索分析 [图片]在SPL中可以使用A.id(), A.group(),A.groups()等函数来进行相关的操作。 例如,在泰坦尼克的数据中,有 ..