sas系统和数据分析多元线性回归分析(编辑修改稿)内容摘要:

sex $ height weight。 cards。 KATE 12 F 145 LOUISE 12 F 149 „„„ LAWRENCE 17 M 172。 run。 2. 制作变量的散点图 建立完 SAS 数据集 bclass 后,一般需要对数据集中要分析的变量 weight 与 height 制作散点图,以便能从图示中反映学生的身高与体重的关系。 一般的处理操作 有菜单操作方法和编程方法 2 种。 如果用菜单操作方法,在 SAS/Assist 环境中,从 Primary Menu 主菜单中选择Graphics/High resolution/ Plots/Simple x*y plot„ 菜单命令,再选择 Active data set 为, Vertical axis 为 weight, Horizontal axis 为 height,可以在 additional options 选项菜单中通过 Line and Symbol 子选项选定所需要的连线类型和点的符号等,最后选择Locals/Run 菜单命令 , 提交运行即可显示图形。 如果用 编程方法,程序如下: goptions reset=global gunit=pct cback=white border htitle=6 htext=3 ftext=swissb colors=(back)。 proc gplot data=。 plot weight * height。 run。 运行后,在 Graph 窗口得到 如 图 所示的结果。 20526cea4e291d4d4b2a47115609da33 商务数据分析 电子商务系列 上海财经大学经济信息管理系 IS/SHUFE Page 11 of 40 3. 相关系数计算 如果用菜单操作方法,可选择 Globals/SAS/Assist/Data Analysis/Elementary/Correlation 命令,再选择 Active data set 为 , Columns to be correlated 为 weight 和 height,然后提交运行。 直接编写调用相关系数计算的程序为: proc corr data=。 var weight height。 run。 运行后,在 Output 窗口得到 如 表 所示的结果。 表 身高与体重 (weight 与 height)的相关系数 图 体重与身高 (weight与 height)的散点图 20526cea4e291d4d4b2a47115609da33 商务数据分析 电子商务系列 上海财经大学经济信息管理系 IS/SHUFE Page 12 of 40 从输出 表 可以看出 ,身 高与体重之间 的 相关系数为。 4. 回归分析 如果用菜单操作方法,可选择 Globals/SAS/Assist/Data Analysis/Regression/Linear regression 命令,再选择 Active data set 为 , Dependent 为 weight, Independent 为height,然后提交运行。 编程实现回归方法为: proc reg data=。 model weight = height /r clm cli dw。 run。 其中,模型参数 r 表示要输出残差分析,包括因变量的观察值、由输入数据和估计模型来计算的预测值、残差值、标准误差、学生化残差、 COOKD 统计量。 模型参数 clm 表示对每个观察输出因变量期望值的 95%置信上界和下界,仅考虑到参数估计的偏差,没有 考虑误差项的偏差。 模型参数 cli表示对因变量的各个预测值输出 95%置信上界和下界,这个置信界反映了误差的偏差以及参数估计的偏差。 模型参数 dw 表示要进行误差项的 独 立性检验,计算 DurbinWatson 统计量。 运行后,在 Output 窗口得到 如 表 所示的结果。 表 回归分析 结果 Correlation Analysis 2 39。 VAR39。 Variables: WEIGHT HEIGHT Simple Statistics Variable N Mean Std Dev Sum Minimum Maximum WEIGHT 40 1907 HEIGHT 40 6130 Pearson Correlation Coefficients / Prob |R| under Ho: Rho=0 / N = 40 WEIGHT HEIGHT WEIGHT HEIGHT 20526cea4e291d4d4b2a47115609da33 商务数据分析 电子商务系列 上海财经大学经济信息管理系 IS/SHUFE Page 13 of 40 回归分析根据所选择的模型参数的输出,分为若干段,下面逐个段地给以说明: 方差分析表提供关于拟合模型的一般信息。 总观察数 N=40,自变量个数 k=1,回归模型 Model: MODEL1 Dependent Variable: WEIGHT Analysis of Variance(方差分析 ) Sum of Mean Source DF Squares Square F Value ProbF Model 1 Error 38 C Total 39 Root MSE Rsquare Dep Mean Adj Rsq . Parameter Estimates(参数估计 ) Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob |T| INTERCEP 1 HEIGHT 1 误差项的独立性检验 DurbinWatson D (For Number of Obs.) 40 1st Order Autocorrelation 置信区间 Dep Var Predict Std Err Lower95% Upper95% Lower95% Upper95% Std Err Obs WEIGHT Value Predict Mean Mean Predict Predict Residual Residual 1 2 3 „„ 38 39 40 残差分析 Student Cook39。 s Obs Residual 210 1 2 D 1 | | | 2 | |*** | 3 | | | 4 | |*** | 5 | | | 6 | *| | 7 | |*** | „„ 35 | | | 36 | |** | 37 | | | 38 | |* | 39 | |* | 40 | |***** | 20526cea4e291d4d4b2a47115609da33 商务数据分析 电子商务系列 上海财经大学经济信息管理系 IS/SHUFE Page 14 of 40 带有截距 i=1。 回归模型的离差平方和 RSS=,自变量的个数 k=1,所以自由度df=k=1,计算公式见 式 ()。 因变量的样本离差平方和 TSS=,自由度为 df=N-1=40- 1=39, 计算公式见 式 ()。 误差项的 样本离差平方和 ESS=,自由度 df=N- k - 1=4011=38 , 计 算 公 式 见 式 ()。 注 意 TSS=RSS+ESS ,即=+。 回归模型的离差平方和平均值MSR=RSS/df=, 误 差 项 的 离 差 平 方 和 平 均 值MSE=ESS/df=。 在原假设所有自变量的回归系数都为 0 的情况下,本例只有一个自变量 height,即 H0: 0 , F(1,38)=MSR/MSE=,查 F 分布表, p 值为 小于显著水平 ,表明可拒绝原假设 , 并有足够的证据断定回归线的斜率不为零。 所以,这一模型拟合数据比基线模型好。 无偏的误差估计标准值 Root MSE= = ,因变量 weight 平均值 Dep Mean=,变异系数(或称方差系数) CV=Root MSE/Dep Mean 100= 100=,它表示与单位无关的方差。 RSquare 是 0~ 1 之间的值,它表示贡献给模型而不是贡献给拟合残差的总方差的那部分,它也称为决定系数或拟合优度,用于判断回归模型拟合好坏。 R2=1- ESS/TSS=RSS/TSS=,调整 R2=1-ESS/TSS(Ni)/( Nki) = 39/38=, R2 越是接近 1 说明模型拟合 得 越好,等于 1 则说明完全拟合,没有任何信息丢失,本例的 R2 值表明有一半信息丢失没有被回归模型表示出来,通常 R2应该超过 以上才比较好。 参数估计表给出截距和斜率的估计值,方程表明截距的估计值为- ,斜率的估计值为 ,计算公式见 式 ()和 式 ()。 估计截距的标准误差计算公式见 式 (),其中,自 变量 height 的。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。