图书 •
828 引用 •
203 回帖 •
3 关注
博客
关注
-
可能的异常值:|z|>2 高度可疑异常值:|z|>3 [图片] 使用Z-score方法对Fare变量检测异常值 A 1 =file('D://titanic.csv').impor ..
-
IQR=QU-QL 在QU+1.5IQR 和 QL-1.5IQR 处画两条与中位线一样的线段,称其为内栏 在QU+3IQR 和 QL-3IQR 处画两条线段,称其为外栏 落在内栏和外栏之间的观 ..
-
计算泰坦尼克数据中各变量缺失的数量和缺失率 A 1 =file('D://titanic.csv').import@qtc() 2 =A1.fname() 3 =A2.((y=~,A1.ali ..
-
在SPL中可以使用pearson和spearman来评估变量之间关系的函数 例如,在房价预测的数据中,分析房屋的居住面积GrLivArea和销售价格SalePrice之间的关系 A 1 =fi ..
-
连续型数据属于定量数据,对于定量数据通常可以从集中趋势测度、分散测度、相对位置测度和对称性测度四个维度来分析。 [图片] 例如泰坦尼克数据中有一个连续型变量”Age”,表示乘客的年龄,探索代码 ..
-
分类数据属于定性数据,通常可以从以下几个维度来探索分析 [图片]在SPL中可以使用A.id(), A.group(),A.groups()等函数来进行相关的操作。 例如,在泰坦尼克的数据中,有 ..
-
无论是数据分析还是数据挖掘,首先都会浏览数据,查看一下数据的基本情况 SPL提供交互式的操作界面,这对数据分析用户来说非常友好。 比如泰坦尼克的数据,使用SPL进行查看代码如下: A 1 =f ..
-
A.numnorm()和P.numnorm(cn)可以对数值型变量执行标准化处理。 例如房价预测数据中的变量”LotArea”量纲比较大,对其进行归一化 A 1 =T('D://house_p ..
-
纠偏,就是通过各种数学转换,使得变量的分布呈现或者近似正态分布,模型的拟合常常会有明显的提升。在SPL提供了自动纠偏函数,可以根据数据特点选择合适的纠偏变换进行纠偏。 A.corskew()和 ..
-
日期时间变量通常会进行以下处理: [图片] 在SPL中提供了可以自动处理日期时间变量的函数 A.datederive(T)和P.datederive(cn, T)可以对日期时间型变量衍生出多个 ..
-
使用A.smooth(T)或P.smooth(cn, T)函数,可以将变量做平滑化处理,经过平滑化处理后可以消除映射成整数后数值大小的影响。 例如还是上一小节中的“Ticket”变量,对其做平 ..
-
分类变量通常是字符形式,字符是无法直接被算法识别和计算的,必须转化成数值型数据。 在SPL中提供了可以自动处理分类变量的函数。 对于分类数不高于6的低频分类变量,可以使用A.bi()或P.bi ..
-
异常值的处理方法: 删除含有异常值的记录:直接将含有异常值的记录删除; 视为缺失值:将异常值视为缺失值,利用缺失值处理的方法进行处理; 修正异常值:可用端点值或前后两个观测值的平均值修正该异常 ..
-
提取单变量缺失信息 为每个包含缺失值的变量建立一个哑变量形式的新变量,用于将该变量的缺失信息标识出来。 在SPL中A.mi()和P.mi()会自动生成一个变量来标记缺失信息 例如,对titan ..
-
均值填补 A 1 =file('D://titanic.csv').import@qtc() 2 =A1.avg(Age) 3 =A1.run(Age=if(!Age,A2,Age)) 在ti ..
-
Excel 文件里有两列数据,分别是某地区房屋价格的预测值和真实值,对其进行误差评估 SalePrice_predictvalue SalePrice 205578.0852 208500 1 ..
-
除上述几个简单的计算指标外,通常还会用AUC,GINI,KS来评价模型的整体表现 还是使用上一小节泰坦尼克的预测数据titanic_export.csv,用到的变量有Survived_1_pe ..
-
计算各种评估指标之前,首先需要计算混肴矩阵: 真正类数(True Positive , TP):被模型预测为正的正样本。 假正类数(False Positive , FP):被模型预测为正的负 ..
-
lineplan(A,B,C)可用来求解线性约束条件下线性目标函数极值问题。 注意在获取参数时要将问题转化为标准形式,标准形式为: 目标函数:[图片] 线性不等式约束:[图片] 例如,求解由线 ..
-
使用kmeans()可以将样本按照指定的类数,进行聚类。目前SPL中的聚类数暂且只支持2。 例如,有一组样本[[1,2,3,4],[2,3,1,2],[1,1,1,-1],[1,0,-2,-6 ..
-
继续使用上节lasso回归里的样本数据,用弹性网络回归进行拟合 A 1 [[1.1,1.1],[1.4,1.5],[1.7,1.8],[1.7,1.7],[1.8,1.9],[1.8,1.8] ..
-
还是上一小节的样本数据,用岭回归进行拟合 A 1 [[1.1,1.1],[1.4,1.5],[1.7,1.8],[1.7,1.7],[1.8,1.9],[1.8,1.8],[1.9,1.8], ..
-
有一组给定的x1,x2和y的值如下表,用lasso回归拟合数据 x1 1.1 1.4 1.7 1.7 1.8 1.8 1.9 2.0 2.3 2.4 x2 1.1 1.5 1.8 1.7 1. ..
-
ttest_p(A, B),计算数值变量和二值变量之间T 检验的 p 值 chi_p (A, B)计算二值变量和二值变量之间卡方检验的p 值 fisher_p (A, B)计算多分类变量和数值 ..
-
偏最小二乘回归提供一种多对多线性回归建模方法,特别当两组变量的个数很多,且都存在多重相关性,而观测数据的样本量又较少时,用偏最小二乘法回归建立的模型具有传统的经典回归分析等方法多没有的有点。 ..