sas系统和数据分析多元线性回归分析(编辑修改稿)内容摘要:
sex $ height weight。 cards。 KATE 12 F 145 LOUISE 12 F 149 „„„ LAWRENCE 17 M 172。 run。 2. 制作变量的散点图 建立完 SAS 数据集 bclass 后,一般需要对数据集中要分析的变量 weight 与 height 制作散点图,以便能从图示中反映学生的身高与体重的关系。 一般的处理操作 有菜单操作方法和编程方法 2 种。 如果用菜单操作方法,在 SAS/Assist 环境中,从 Primary Menu 主菜单中选择Graphics/High resolution/ Plots/Simple x*y plot„ 菜单命令,再选择 Active data set 为, Vertical axis 为 weight, Horizontal axis 为 height,可以在 additional options 选项菜单中通过 Line and Symbol 子选项选定所需要的连线类型和点的符号等,最后选择Locals/Run 菜单命令 , 提交运行即可显示图形。 如果用 编程方法,程序如下: goptions reset=global gunit=pct cback=white border htitle=6 htext=3 ftext=swissb colors=(back)。 proc gplot data=。 plot weight * height。 run。 运行后,在 Graph 窗口得到 如 图 所示的结果。 20526cea4e291d4d4b2a47115609da33 商务数据分析 电子商务系列 上海财经大学经济信息管理系 IS/SHUFE Page 11 of 40 3. 相关系数计算 如果用菜单操作方法,可选择 Globals/SAS/Assist/Data Analysis/Elementary/Correlation 命令,再选择 Active data set 为 , Columns to be correlated 为 weight 和 height,然后提交运行。 直接编写调用相关系数计算的程序为: proc corr data=。 var weight height。 run。 运行后,在 Output 窗口得到 如 表 所示的结果。 表 身高与体重 (weight 与 height)的相关系数 图 体重与身高 (weight与 height)的散点图 20526cea4e291d4d4b2a47115609da33 商务数据分析 电子商务系列 上海财经大学经济信息管理系 IS/SHUFE Page 12 of 40 从输出 表 可以看出 ,身 高与体重之间 的 相关系数为。 4. 回归分析 如果用菜单操作方法,可选择 Globals/SAS/Assist/Data Analysis/Regression/Linear regression 命令,再选择 Active data set 为 , Dependent 为 weight, Independent 为height,然后提交运行。 编程实现回归方法为: proc reg data=。 model weight = height /r clm cli dw。 run。 其中,模型参数 r 表示要输出残差分析,包括因变量的观察值、由输入数据和估计模型来计算的预测值、残差值、标准误差、学生化残差、 COOKD 统计量。 模型参数 clm 表示对每个观察输出因变量期望值的 95%置信上界和下界,仅考虑到参数估计的偏差,没有 考虑误差项的偏差。 模型参数 cli表示对因变量的各个预测值输出 95%置信上界和下界,这个置信界反映了误差的偏差以及参数估计的偏差。 模型参数 dw 表示要进行误差项的 独 立性检验,计算 DurbinWatson 统计量。 运行后,在 Output 窗口得到 如 表 所示的结果。 表 回归分析 结果 Correlation Analysis 2 39。 VAR39。 Variables: WEIGHT HEIGHT Simple Statistics Variable N Mean Std Dev Sum Minimum Maximum WEIGHT 40 1907 HEIGHT 40 6130 Pearson Correlation Coefficients / Prob |R| under Ho: Rho=0 / N = 40 WEIGHT HEIGHT WEIGHT HEIGHT 20526cea4e291d4d4b2a47115609da33 商务数据分析 电子商务系列 上海财经大学经济信息管理系 IS/SHUFE Page 13 of 40 回归分析根据所选择的模型参数的输出,分为若干段,下面逐个段地给以说明: 方差分析表提供关于拟合模型的一般信息。 总观察数 N=40,自变量个数 k=1,回归模型 Model: MODEL1 Dependent Variable: WEIGHT Analysis of Variance(方差分析 ) Sum of Mean Source DF Squares Square F Value ProbF Model 1 Error 38 C Total 39 Root MSE Rsquare Dep Mean Adj Rsq . Parameter Estimates(参数估计 ) Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob |T| INTERCEP 1 HEIGHT 1 误差项的独立性检验 DurbinWatson D (For Number of Obs.) 40 1st Order Autocorrelation 置信区间 Dep Var Predict Std Err Lower95% Upper95% Lower95% Upper95% Std Err Obs WEIGHT Value Predict Mean Mean Predict Predict Residual Residual 1 2 3 „„ 38 39 40 残差分析 Student Cook39。 s Obs Residual 210 1 2 D 1 | | | 2 | |*** | 3 | | | 4 | |*** | 5 | | | 6 | *| | 7 | |*** | „„ 35 | | | 36 | |** | 37 | | | 38 | |* | 39 | |* | 40 | |***** | 20526cea4e291d4d4b2a47115609da33 商务数据分析 电子商务系列 上海财经大学经济信息管理系 IS/SHUFE Page 14 of 40 带有截距 i=1。 回归模型的离差平方和 RSS=,自变量的个数 k=1,所以自由度df=k=1,计算公式见 式 ()。 因变量的样本离差平方和 TSS=,自由度为 df=N-1=40- 1=39, 计算公式见 式 ()。 误差项的 样本离差平方和 ESS=,自由度 df=N- k - 1=4011=38 , 计 算 公 式 见 式 ()。 注 意 TSS=RSS+ESS ,即=+。 回归模型的离差平方和平均值MSR=RSS/df=, 误 差 项 的 离 差 平 方 和 平 均 值MSE=ESS/df=。 在原假设所有自变量的回归系数都为 0 的情况下,本例只有一个自变量 height,即 H0: 0 , F(1,38)=MSR/MSE=,查 F 分布表, p 值为 小于显著水平 ,表明可拒绝原假设 , 并有足够的证据断定回归线的斜率不为零。 所以,这一模型拟合数据比基线模型好。 无偏的误差估计标准值 Root MSE= = ,因变量 weight 平均值 Dep Mean=,变异系数(或称方差系数) CV=Root MSE/Dep Mean 100= 100=,它表示与单位无关的方差。 RSquare 是 0~ 1 之间的值,它表示贡献给模型而不是贡献给拟合残差的总方差的那部分,它也称为决定系数或拟合优度,用于判断回归模型拟合好坏。 R2=1- ESS/TSS=RSS/TSS=,调整 R2=1-ESS/TSS(Ni)/( Nki) = 39/38=, R2 越是接近 1 说明模型拟合 得 越好,等于 1 则说明完全拟合,没有任何信息丢失,本例的 R2 值表明有一半信息丢失没有被回归模型表示出来,通常 R2应该超过 以上才比较好。 参数估计表给出截距和斜率的估计值,方程表明截距的估计值为- ,斜率的估计值为 ,计算公式见 式 ()和 式 ()。 估计截距的标准误差计算公式见 式 (),其中,自 变量 height 的。sas系统和数据分析多元线性回归分析(编辑修改稿)
相关推荐
订 制的二维正态分布的联合密度函数的图形 上海财经大学经济信息管理系 IS/SHUFE Page 5 of 13 语句绘制的 二维散布图相比,三维散布图能表现三个变量 X、 Y、 Z 在三维空间中的关系和趋势,而二维散布图只能表现二个变量 X、 Y 在二维平面上的关系和趋势。 下面,我们以上证指数中的日期 DATE、成交量 VOLUME、收盘价 CLOSE 三个关键变量的值来绘制三维散布图
er 键,都可启动 SAS/ASSIST 软件,主菜单如图 所示。 共有 11 个子系统: TUTORIAL DATA MGMT (DATA Management) REPORT WRITING GRAPHICS DATA ANALYSIS PLANNING TOOLS EIS REMOTE CONNECT RESULTS SETUP INDEX
建立 SAS学生基本情况数据集 按班级 、 学号升序 , 总学分降序排列。 3 、 在 OUTPUT 窗 口 输 出 该 表 , 输 出 格 式 : 出 生 日 期YYMMDD10. X性别男 =boy, 女 =girl 36 一般统计描述 MEANS 过程 Proc means [操作选项 ][统计量关键字列表 ]。 [VAR 变量名列表。 ]/*指定分析的变量名列表 ,缺省为所 有数值变量
• 核算收益 传播渠道 • 写字楼电梯广告 • 网络广告 – 弹出页面、企业网站专栏 – 网易、 TOM首页 link—时尚指数测试 • 精品杂志 ——HOPE、 HOW、瑞丽 … • 移动营业厅 ——海报、折页、 X架 … 需要解决的问题 • 产品方案的调整 • 技术方案的实现 • 创业计划的拟定 • 广告创作的执行 SWOT分析 威 胁 专业性管理软件公司迅速崛起;
方差分析。 重复测量资料的方差分析 • 对重复测量实验数据的方差分析需考虑两个因素的影响,一个因素是处理分组,可通过施加干预和随机分组来实现;另一个因素是测量时间,由研究者根据专业知识和要求确定。 因此,重复测量资料的变异可分解为处理因素、时间因素、处理和时间的交互作用、受试对象间的随机误差和重复测量的随机误差 5部分。 重复测量资料的方差分析 • 重复测量设计优点是:每一个体作为自身的对照
(*.xls) 输入目的数据库的 路径 和数据库名为 d:\sasdata\mydir\ 第十一课 单击 Finish按钮 SAS数据集的编辑 图 确定在 SAS 系统中新生成的数据集名称 ab28d953ecd6fcd1023ab322e30cbbd9 SAS 系统和数据分析 电子商务系列 上海财经大学经济信息管理系 IS/SHUFE Created by Page 6 of 10