-
解析 HTML 文件,读出序表。 从 HTML 文件中解析出成绩表,并统计每个学生的总分。 … CLASSSTUDENTIDSUBJECTSCORE Class one1Math77 Cl ..
-
MAD 定义为,一元序列 Xi同其中位数偏差的绝对值的中位数 MAD=median(|Xi−median(X)|) 例如,使用MAD方法检测Fare变量的异常值,阈值取3.5 A 1 =fil ..
-
一、 SQL 及分析 查询SQL语句如下: select l_returnflag, l_linestatus, sum(l_quantity) as sum_qty, sum(l_exten ..
-
一、 数据准备 利用TPCH官方工具生成文本文件形式的原始数据,共8个表,数据量总规模100G,各文件大小见后表。 然后根据这些文本文件生成SPL的二进制文件,每个表对应一个二进制文件。 组表 ..
-
解析 HTML 文件,分析正文中的信息。 查找 HTML 文件的正文中有哪些数字。文件部分内容如下: Stack Overflow - Where Developers Learn, S ..
-
将标准 SQL 语句翻译成指定数据库所使用的格式。 某公司的销售数据,部分存储在数据库 oracle 中,部分存储在数据库 mysql 中。求 2015 年 3 月 18 日到 7 月 18 ..
-
可能的异常值:|z|>2 高度可疑异常值:|z|>3 [图片] 使用Z-score方法对Fare变量检测异常值 A 1 =file('D://titanic.csv').impor ..
-
修改 SQL 语句中的过滤条件。 下面的 SQL 语句用于选出销售部门收入大于 10000 的员工,将过滤条件中的部门修改为研发部门。 select EID,NAME,SURNAME,DEPT ..
-
使用代码解析序表中的字符型字段。 求 80 后的平均工资,年龄需要从证件号码中提取。员工表部分数据如下: ID Name Identification Salary 1 Rebecca Dri ..
-
[图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] Downlo ..
-
Download PDF [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片 ..
-
IQR=QU-QL 在QU+1.5IQR 和 QL-1.5IQR 处画两条与中位线一样的线段,称其为内栏 在QU+3IQR 和 QL-3IQR 处画两条线段,称其为外栏 落在内栏和外栏之间的观 ..
-
用正则表达式解析不定行文本数据。 日志文件由数量不定的多行组成,想要解析成结构化数据。部分日志内容如下: [图片] 函数 A.regex(rs,Fi) 用正则表达式 rs 在序列 A 的字符串 ..
-
用正则表达式解析序表中的字符型字段。 从客户地址中取出路牌号(数字号码)。客户表部分数据如下: ID Name City Address 1 VINET Beijing 124 Guangmi ..
-
计算泰坦尼克数据中各变量缺失的数量和缺失率 A 1 =file('D://titanic.csv').import@qtc() 2 =A1.fname() 3 =A2.((y=~,A1.ali ..
-
有 Base64 编码串:eyJhIjo2MywiYyI6Mjk4LCJuIjoxLCJzIjoxLCJlIjo0MCwicCI6NH0= 需要将其转码后的 json 串({“a”:63,“c ..
-
将字符串解析为序表。 系统剪贴板中复制了中国主要城市的 GDP 和人口数据,将其输出成 csv 格式文件。部分内容如下: ID City GDP Population 1 Shanghai 3 ..
-
实践目标 集算器DQL服务器除了提供DQL语句的查询能力,还提供了模糊搜索接口,用更接近自然语言的方式查询数据库里的数据。搜索页面调用搜索接口获得多个可能的结果,并查得数据生成报表。 搜索页面 ..
-
在SPL中可以使用pearson和spearman来评估变量之间关系的函数 例如,在房价预测的数据中,分析房屋的居住面积GrLivArea和销售价格SalePrice之间的关系 A 1 =fi ..
-
在拆分字符串时,将字串解析为合适类型的数值。 有课程表和选课表,查询有哪些课没有学生选修。其中选课表可以多选,用逗号分隔,部分数据如下: Course: ID NAME TEACHERID 1 ..
-
自动解析单个字符串为相应的数据类型。 以奥运会奖牌榜为例,查询哪几届奥运会中国奖牌榜排名比俄罗斯靠前。 Game Nation Medal 30 USA [46,29,29] 30 China ..
-
连续型数据属于定量数据,对于定量数据通常可以从集中趋势测度、分散测度、相对位置测度和对称性测度四个维度来分析。 [图片] 例如泰坦尼克数据中有一个连续型变量”Age”,表示乘客的年龄,探索代码 ..
-
将百分比字符串解析为数值。 根据泰坦尼克号生存模型结果,统计生存概率超过 80% 的人员中,女性所占比例。部分数据如下: Survived PassengerId Pclass Name Se ..
-
将字符串解析为数值。 模型表现表记录了不同模型的各种指标,想要选出其中的数值目标模型(ModelType 是 2),并以指标为列名展现。其中每个模型的指标是按同一次序输出到文件中的。部分数据如 ..
-
分类数据属于定性数据,通常可以从以下几个维度来探索分析 [图片]在SPL中可以使用A.id(), A.group(),A.groups()等函数来进行相关的操作。 例如,在泰坦尼克的数据中,有 ..