图书 •
828 引用 •
203 回帖 •
3 关注
博客
关注
-
马氏距离计算观测样本在总体样本中的距离,不受量纲的影响。dism(X,Y,C)用来计算向量X与向量Y在协方差矩阵C下的马氏距离。样本数要大于维数。例如同样上述5 个样本,计算两两之间的马氏距离 ..
-
欧式距离即直线距离,使用函数dis(A,B)可计算向量A 和向量 B 之间的欧式距离。例如有下表中 5 个样本,求两两样本之间的欧式距离 X Y 1 22 7.25 2 38 71.2833 ..
-
在多元线性回归模型中,因变量y 和自变量[图片]之间是否存在线性关系以及回归系数的显著性是需要检验的,比如在下面的例子中我们可以通过F 检验和 t 检验来分析判断自变量和因变量之间的关系。 表 ..
-
根据表中字段分组,在各个分组中跨行计算。 在用户消费表中,计算每位用户最后一次消费与前一次的差额。 部分数据如下: [图片] 脚本: A 1 =db.query@x(“SELECT * FRO ..
-
选出员工人数超过 50 人的州,查询这些州各部门的平均工资。 ID NAME BIRTHDAY STATE DEPT SALARY 1 Rebecca 1974/11/20 Californi ..
-
严格来说,分组和汇总是两个独立的动作,但在 SQL 中总是一起出现,从而给人一种两者必须同时使用的假象。事实上,这种组合是对分组操作的一种局限,或者说分组之后,能够进行的计算远不止 SQL 中 ..
-
把集合中具有相同属性的成员分配到同一个组,这就是分组运算。比如员工表根据部门分组,每组的员工都具有相同的部门;销售表可以根据销售年份分组,每组都是同一个年份的销售记录等等。 分组运算的实质是将 ..
-
有些时候,我们能够直接或者间接的获取分组序号(成员应该分配到第几组),这种情况下我们可以直接按照分组序号进行分组。 根据员工的入职时间平均分成三组(有余数的顺序分配到某一组),并统计每组的平均 ..
-
大数据表中,计算条件表达式,并在结果为真时分新组。 在数据量大的日志文件中,日志是按日期时间顺序输出的。查找日志级别连续出现 ERROR 次数最多的一天。 Date Time Level IP ..
-
在参数估计和假设检验中,常常需要构造分布函数,在SPL 中提供了常见分布的逆累积分布函数(ICDF)。SPL 中的逆累积分布函数有:norminv(),tinv(),chi2inv(),fin ..
-
对有序集合进行分组时,当分组条件的计算结果为 true 时重新分组。 上证指数 2020 年收盘价最长连续上涨了多少天?(首个交易日指数上涨)。部分数据如下: DATE CLOSE OPEN ..
-
数据量很大,在相邻记录的字段值变化时分新组,最后汇总。 在数据量大的日志文件中,日志是按日期时间顺序输出的。查找日志级别连续出现 ERROR 次数最多的一天。 Date Time Level ..
-
[图片] 使用linefit()可采用最小二乘法求解方程组 A 1 [[1,-2, 3],[2,3,4],[3,5,7]] 2 [-10,5,7] 3 =linefit(A1,A2) A1 输 ..
-
有些时候,数据的次序在分组时是有意义的。我们有时会把具有相同字段值或者同时满足某些条件的相邻记录分到同一组。比如蝉联奥运会金牌榜第一名届数最长的国家是哪个,某支股票的收盘价最多连续上涨了几天等 ..
-
根据表达式的计算结果,将记录分段分组并汇总计算平均值。 根据员工表,按入职时间 10 年以下,10~20 年和 20 年以上分组,并统计每组的平均工资。 ID NAME HIREDATE SA ..
-
根据指定字段的值,分段分组并汇总计数。 根据员工薪资表,按工资 8000 以下、8000~12000 和 12000 以上分组,并统计各组的人数。 ID NAME BIRTHDAY SALAR ..
-
有时我们需要把满足多个分组条件的成员,重复分配到所有对应的分组中。 根据城市 GDP 表,分别统计直辖市、一线城市、二线城市的人均 GDP。需要注意的是,分组可能会有重复成员,比如北京既是一线 ..
-
对于AX=Y,若A 的逆矩阵存在,可用求逆法解方程组 [图片] 求解代码如下: A 1 [[1,2],[2,3]] 2 [8,13] 3 =inverse(A1) 4 =mul(A3,A2) ..
-
按枚举条件进行分组时,可能会有不匹配任何一组条件的成员,我们可以将这些成员存放到新组。适用于不仅关心匹配的成员信息,还要关心其他不匹配成员的场景。 根据年龄将员工分组统计平均工资,分成 35 ..
-
在分组时,我们经常需要把满足同一个条件的记录分配到同一组中。比如根据城市人口将城市分为大、中、小型城市,根据年收入将家庭分为富裕、中产、小康、贫困等等。根据事先定义好的枚举条件,将符合条件的成 ..
-
相关系数矩阵反映的是两两变量之间的相关程度,一般是计算皮尔逊相关系数。如下表,有x1,x2,x3,x4四个变量,计算其相关系数矩阵,评估变量相关性。 x1 x2 x3 x4 1 7 26 6 ..
-
SPL 中提供 pearson()和spearman()函数,来评估两变量之间的相关程度 A B 1 =[7,9,6,23,56,1,6] =[6,1,56,23,6,9,7] 2 =pear ..
-
有时候每条记录计算出的分组序号是多个,我们希望将记录按照序号数列重复性的分配到多个组中。 根据发帖记录表,按标签将帖子分组,并统计各个标签出现频数。发帖记录表部分数据如下: ID Title ..
-
按指定的序号顺序将数据分组,每组保留所有匹配成员。适用于关心每组的成员信息,或者需要用这些成员记录继续进行统计的场景。 根据销售表,顺序列出 2014 年每个月的销售总额。销售表部分数据如下: ..
-
covm(A)用来计算矩阵的协方差矩阵 A 1 [[8,1,16],[3,5,7],[4,9,2]] 2 =covm(A1) A2计算A1 的协方差矩阵