sas系统和数据分析方差分析(编辑修改稿)内容摘要:

c means 语句中的 选项列表。  manova—— 按多元方式删除那些含有丢失值的观察, 即在因变量中有丢失值就从这次分析中删除这个观察。  outstat=输出数据集名 —— 生成一个输出数据集,它包含模型中每个效应的平方和、F 统计量和概率水平。 ( 2) class 语句。 在 anova 过程中要使用的分类变量、区组变量必须首先在 class 语句的变量列表中说明。 Class 语句是必需的,且必须放在 model 语句前面。 Class 变量可以是数值型,也可以是字符型。 ( 3) model 语句。 上海财经大学经济信息管理系 IS/SHUFE Page 11 of 39 该语句用来规定因变量和自变量效应。 如果没有规定自变量的效应,则只拟合截距,假设检验为因变量的均值是否为 0。 Model语句的主要形式有四种: ① 主效应模型 Model y=a b c。 ② 含有交叉 因素的模型 Model y=a b c a*b a*c b*c a*b*c。 ③ 嵌套模型 Model y=a b c(a b)。 ④ 包含嵌套、交叉和主效应的模型 Model y=a b(a) c(a) b*c(a)。 Model语句的选项列表有: int—— 打印与截距有关的假设检验结果。 anova 过程总是把截距作为模型的一个效应进行处理,缺省时,不打印结果。  nouni—— 不打印单变量分析结果。 ( 4) means 语句。 该语句是用来计算在 means 语句后列出的每个效应所对应的因变量 均值。 Anova 过程可以对出现在 model 语句等号右边的任一效应计算因变量的均值。 不过这些均值没有针对模型中的效应进行修正。 如果需要修正的均值,应该调用 glm 过程,使用其中的 lsmenas 语句。 在 anova 过程里可以使用任意多个 means 语句,它们放在 model语句后面。 Means 语句的选项列表主要有两个内容,一是选择多重比较的检验方法,二是规定这些检验的细节,注意这些细节选项只能用于主效应。 ① 多重比较的检验方法  bon—— 对所有主效应均值之差进行 Bonferroni 的 t 检验。  duncan—— 对所有主效 应均值进行 Duncan 的多重极差检验。  dunt(‘格式化对照值 ’)—— 进行 Dunt 的双尾 t 检验。 用以检验对所有主效应均值的某个水平作为对照,处理有无显著差异。 为了规定这个对照效应的水平,在括号内用单引号把这个水平的格式化值括起来。 缺省时,效应的第一个水平作为对照。  duntl(‘格式化对照值 ’)—— 进行 Dunt 的单尾 t 检验。 它检验是否任一个处理显著地小于这个对照。  duntu(‘格式化对照值 ’)—— 进行 Dunt的单尾 t检验。 它检验是否任一个处理显著地大于这个 对照。  gabriel—— 对所有主效应均值进行 Gabriel 的多重对比检验。  regwf—— 对所有主效应均值进行 RyanEinotGabrielWelsch 的多重 F 检验。  regwq—— 对所有主效应均值进行 RyanEinotGabrielWelsch 的多重极差检验。  scheffe—— 对所有主效应均值进行 Scheffe 的多重对比检验。  sidak—— 对所有主效应均值水平依据 Sidak不等式进行调整后,对其均值之差两两进行 t 检验。  Smm|gt2—— 当样本量不等时,基于学生化最大模和 Sidak 不相 关 t 不等式, 使用Hochberg 的 GT2 方法,对主效应均值进行两两对比检验。  snk—— 对所有主效应均值进行 StudentNewmanKeuls 的多重极差检验。  t|lsd—— 对所有主效应均值进行两两 t 检验,它相当于在单元观察数相等时 Fisher的最小显著差( Fisher’s leastsignificantdifference)检验。  tukey—— 对所有主效应均值进行 Tukey 的学生化极差检验。 上海财经大学经济信息管理系 IS/SHUFE Page 12 of 39  waller—— 对所有主效应均值进行 WallerDuncan 的 k比率( kratio)检验。 ② 多重 比较的检验细节  alpha=p—— 给出均值间对比检验的显著性水平。 缺省值是。  cldiff—— 要求把两两均值之差的结果用置信区间的形式输出。  clm—— 对变量的每个水平的均值按置信区间形式输出。  e=效应 —— 指定在多重对比检验中所使用的误差均方。 如果缺省,使用残差均方( MS)。 指定的效应必须是在 model 语句中出现过的效应。  kratio=值 —— 给出 WallerDuncan检验的类型 1/类型 2的误差限制比例。 Kratio的合理值为 50、 100、 500,大约相当于两水平时 alpha值为 、 、。 缺省值为 100。  lines—— 按下降次序列出所有检验方法产生的均值,并用一条线段在均值旁指出非显著的子集。  hovtest—— 要求输出组间方差齐性的 Levene检验。 ( 5) test 语句  在分析中,如果这个语句缺省,仍然使用残差均方( MS)作为误差项对所有平方和( SS)计算 F值。 但用户可以使用本语句要求使用其他效应作为误差项,得到另外的 F检验。 可以使用多个 test 语句,把它们放在 model 语句后面。 Test 语句的选项为:  h=效应 —— 规定模型里哪些效应用来作为假设的效应。  e=效应 —— 规定 一个而且只能是一个效应用来作为误差项,这个说明项是必 需 的。 2. glm 过程的语句格式 proc glm 是分析符合一般线性模型( General Linear Models)的数据,因此取名 GLM。 它能被用在许多不同的分析中,如简单回归、多元回归、方差分析、协方差分析、加权回归、多项式回归、偏相关分析、多元方差分析等。 在 glm 过程中的大多数方差分析的语句和选项与 anova 过程中基本相同。 用 anova 过程编写的程序几乎不用修改就可在 glm 过程中运行。 glm 过程仅仅附加了三条语句: contrast、estimate 和 lsmeans。 contrast 和 estimate 语句允许你测试和估计均值的某种功能。 lsmeans 语句允许你计算调整后的均值。 glm 过程的主要控制语句如下: proc glm 输入数据集名 选项列表。 class 变量列表。 model 因变量列表 =自变量列表 /选项列表。 contrast ‘ 标签 ’ 效应 值表 /选项列表。 estimate ‘ 标签 ’ 效应 值表 /选项列表。 lsmeans 效应列表 /选项列表。 means 效应列表 /选项列表。 output out=输出数据集名 统计量关键字 =变量名列表。 test H=效应列表 E=效应列表。 run。 其中 , class 语句、 model语句是必需的,而且 class 语句必须出现 在 model语句之前。 其他语句必须放在 model 语句之后。 下面主要介绍与 anova 过程相比不同的语句和新增加的语句。 上海财经大学经济信息管理系 IS/SHUFE Page 13 of 39 ( 1) model 语句。 在 glm 过程的 model语句中可以使用几种不同效应,下面是使用这些效应的几个例子, a、b 和 c 代表分类变量; y y x1 和 x2 代表连续变 量。 Model y=x1。 (简单回归 ) Model y=x1 x2。 (多重回归 ) Model y=x1 x1*x1。 (多项式回归 ) Model y1 y2=x1 x2。 (多元回归 ) Model y=a。 (单因素方差分析 ) Model y=a b c。 (主效应模型 ) Model y=a b a*b。 (因素模型 ) Model y=a b(a) c(b a)。 (嵌套模型 ) Model y1 y2=a b。 (多元方差分析模型 ) Model y=a x1 (协方差分析模型 ) Model语句的主要选项有(与 anova 过程中的 model语句选项相同不再列出):  solution—— 打印正规方程的解,即参数估计值。 e1/e2/e3/e4—— 打印模型中每一效应的类型 1/类型 2/类型 3/类型 4的可估函数,并计算 相应的平方和。 ss1/ss2/ss3/ss4—— 对每个效应,打印与类型 1/类型 2/类型 3/类型 4 的可估函数相关的平方和。 alpha=—— 指定置信区间的  水平。 缺省值为。 cli/clm—— 打印每一观察的预测值 /预测均值的置信限,两者不能同时使用。 p—— 打印自变量没有缺失值的每一观察值、预测值和残差值。 同时还打印 DurbinWaston统计量。 xpx—— 打印叉积矩阵 XX。 i—— 打 印矩阵 XX 的逆矩阵或广义逆矩阵。 ( 2) contrast 语句。 提供一种获得一般假设检验的技巧。 其中,效应可以是截距,用字符 intercept 表示。 通过规定 L 向量或 M 矩阵来构造一元假设检验 0L 或多元假设检验 0ML。 例如,当发现某两个因素的交互作用项有显著性时,我们可用本语句来实现一个因素被控制在某水平上, 对另一个因素的各水平间进行两两比较的目的。 设 M 因素有三个水平 a、 b、 c, V因素有两个水平 2,且 VM 有显著性。 如果我们要比较 )(21 cba   的差异,那么有几种不同的比较方法: ① 在因素 V 的每一个水平上,分别比较因素 M 的三个水平 a、 b、 c 均值的之间的线性关系假设是否显著。 也即 : : 1110  cbaH  和 : 2220  cbaH  ② 在因素 V 平均的所有水平上,比较因素 M 的三个水平 a、 b、 c 均值 的之间的线性关系假设是否显著。 也即 : 上海财经大学经济信息管理系 IS/SHUFE Page 14 of 39 0)()(: 2221110  cbacbaH  ③ 在因素 V 平均的子集上,比较因素 M 的三个水平 a、 b、 c 均值的之间的线性关系假设是否显著。 也即 : 0)()(: 2221110  cbacbaH  glm 模型为双因素试验设计的方差分析指定了下面的效应公式 : ijjiij )(  () 其中 , ij 是因素 iM 水平与因 素 jV 水平在 ij 单元上所有观察值的平均。  为总平均。 i 是因素 M 在 i 水平上的主效应, j 是因素 V 在 j 水平上的主效应, ij)( 为因素 M 和因素 V 在 ij 水平上的交互效应。 因此,对任一观察值有 : ijkijiiijkijijky     )( () 因此,根据单元均值给出的线性组合可以转换成效应模型的合并参数形式,即 0L ,如 : 111111111111)()()()()()(cbacbaccbbaacba 同理 : 222222 )()()( cbacbacba   相应的 glm 过程的语句为 : proc glm。 class M V。 model Y=M V M*V。 contrast ‘ a vs b,c in v1’ M 1 M*V 1 0 0 0。 contrast ‘ a vs b,c in v1’ M 1 M*V 0 1 0 0。 run。 Contrast 语句中的可选项: e—— 打印整个 L 向量。 e=效应 —— 规定模型中的某个效应作为误差项。 过程将把这一效应作为单变量 F检验的分母。 如果缺省,过程把均方误差( MSE)作为误差项。 etype=n—— 指明 e=效应的类型( 4)。 如果指明 e=而没有指明 etype=,则使用最高类型。 ( 3) Estimate 语句 上海财经大学经济信息管理系 IS/SHUFE Page 15 of 39 可用来估计参数的线性函数,通过用参数的估计 b 乘以向量 L 来得到 Lb。 其中 ,YXXXb 。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。