sas系统和数据分析编辑统计图形(编辑修改稿)内容摘要:
1121*)1()1(nsnsntnsntnst () 用上面修正后的 *t 统计量作出合适的统计推断。 一般地, Chchran 和 Cox检验趋于保守。 另外, Satterthwaite( 1864)就设法用 t 统计量去拟合,结果发现若取: )1()1(/) 22242121412222121nn snn snsnsl () 但 l 的计算结果为非整数时取最接近的整数,则 *t 近似服从自由度为 l 的 t 分布。 当样本数 1n 和 2n 较大时,式中的 l 值 也将随之而增大,我们知道,当 30l 时,自由度为 l 的 t 分布就很接近于正态分布 )1,0(N ,故在 1n 和 2n 较大时,我们将认为 *t 统计量服从)1,0(N 分布。 5. 两组方差的齐性检验 两个均值比较的 t 检验,其前提是两个样本所代表的正态总体具有相同的方差,因此在作t 检验前,应该作两个方差是否齐性(一致)的检验,称为方差的齐性检验( test for homogeneity of variance)。 设从正态总体 ),(~ 2111 NX 中获得的 1n 个样本均值为 1X ,样本无偏方差为 21s ,从另一正态总体 ),(~ 2222 NX 中获得的 2n 个样本均值为 2X ,样本无偏方差为 22s ,且两个样本独立。 假定 1 和 2 未知。 现在要检验的原假设是 22210 : H ,备择假设是21211 : H。 由于: )1(~)1( 1211121211 1 nxxsn nii () )1(~)1( 2222222222 2 nxxsn nii () 上海财经大学经济信息管理系 IS/SHUFE Page 16 of 29 构造统计量: )1,1(~ 21212221 nnFss () 如果原假设是 22210 : H 为真的情况下: )1,1(~ 2121 nnFssF () 对于给定显著水平 ,检验统计量 F 的拒绝原假设 0H 的区域为 )1,1(212 nnFF 或 )1,1(2121 nnFF 。 实际计算 F 值时常用:较大的样本方差 /较小的样本方差,所以,拒绝区域只要看 )1,1(2121 nnFF 。 不拒绝 0H 时,认为两组方差齐性( homoscedasticity),这时 t 检验的前提条件满足,所以计算的 t 值及统计推断可靠;拒绝 0H 时,认为两个总体方差不齐( heteroscedasticity),这时不能直接作 t 检验,应该采取适当的措施。 如检查试验的本身,寻找原因给出可能的解释;或作变量置换;或用非参数统计分析方法;或用 *t 检验。 当涉及到 r 个正态总体的方差相齐性检验时,分成两种情况:样本容量相等和样本容量不等。 样本容量相等,假设为 nnnn r 21 ,常用的有两种检验方法:最大 F 检验( Hartley(哈特利 )检验)和最大方差检验( Cochran(卡克伦 )检验)。 最大 F 检验用的统计量为: )1,(~},m i n{ },m a x{ 2222122221m a x nrFsss sssF rr () 最大方差检验用的统计量为 )1,(~},m a x{ 2 22221m a x nrGs sssGir () 在样本容量不相等的情况下,可以采用 Bartlett 检验。 它是从广义似然比导出。 四、 简单 的描述性统计 proc means 过程 SAS 系统的 BASE 软件提供了一些计算基础统计量的过程,如 means 过程、 summary 过程、 univariate 过程、 corr过程、 freq 过程和 tabulate 过程。 这些过程可完成单变量或多变量的描述统计量计算。 SAS 的 means 过程用来对数据集中的数值变量计算简单的描述统计量。 1. Means 过程的语句格式 上海财经大学经济信息管理系 IS/SHUFE Page 17 of 29 Means 过程的主要控制语句如下: proc means 输入数据集名 选项列表。 var 变量列表。 class 变量列表。 by 变量列表。 freq 变量。 weight 变量。 id 变量列表。 output out=输出数据集名 统计量关键字 =变量名 列表。 run。 2. proc means 语句中的 选项列表 vardef=df/weight/wgt/n/wdf—— 在方差计算中规定除数 d.。 ( 1) 例 vardef=df 则 d=n- 1 缺省值 ( 2) vardef=n 则 d=n ( 3) vardef=weight/wgt 则 d=iW ( 4) vardef=wdf 则 d=iW - 1 noprint—— 不输出任何描述统计量,仅为了创建新的数据集。 maxdec=数字 —— 输出结果中小数部分的最大位数( 0 至 8),缺省值为 2。 fw=数字 —— 规定打印时每个统计量的域宽,缺省值为 2。 descending—— 规定输出数据集按 _type_值下降 的次序(缺省时为上升)。 order=freq/data/internal/formatted/—— 规定输出时 class变量按所指定方式排序。 alpha=数字 —— 设置计算置信区间的置信水平 , 值在 0与 1之间。 统计量 —— 可使用的关键字见表 所示。 表 proc means 语句中可用的统计量关键字 统计量名称 含义 统计量名称 含义 n 未丢失的观测个数 mode 众数,出现频数最高的数 nmiss 丢失的观测个数 sumwgt 权数和 mean 算术平均 max 最大值 stderr 均值的标准误差 min 最小值 sum 加权和 range 极差, max— min std 标准偏差 median 中间值 var 方差 t 总体均值等于 0的 t统计量 cv 变异系数的百分数 prt t分布的双尾 p值 uss 加权平方和 clm 置信度上限和下限 css 关于均值偏差的加权平方和 lclm 置信度下限 skewness 对称性的度量 —— 偏度 uclm 置信度上限 kurtosis 对尾部陡平的度量 —— 峰度 上海财经大学经济信息管理系 IS/SHUFE Page 18 of 29 3. output 语句中的选项 out=输出数据集名 —— 输出数据集名。 统计量关键字 =变量名列表 —— 规定在输出数据集中要包含的统计量并规定这些统计量在新数据集中的变量名。 means 过程对 output 语句的次数没有限制,可以使用几个 output 语句来创建内容不同的多个数据集。 4. 其他语句 var语句 —— 规定要求计算简单描述性统计量的数值变量的次序。 by语句 —— 按 by语句定义的变量进行分组计算其相应的简单统计量 ,要求输入数据集已按 by 变量排序。 class语句 —— 与 by语句一样,可用 class变量定义观测组,分别计算各组观测的描述统计量。 输出格式与 by不同且事先不需要按 class 变量排序。 freq 语句 —— 指定一个数值型的 freq变量,它的值表示输入数据集中相应观测出现的频数。 weight 语句 —— 规定一个 weight 变量,它的值表示相应观测的权数。 id 语句 —— 在输出数据集中增加一个或几个附加变量,目的在于识别输出数据集里的观测。 其值为生成这个观测的输入数据集中相应观测组里 id 变量具有的最大值。 五、 实例分析 1. 用 output 语句创建一个新的数据集 例 我们对原数据集 survey,用 means 过程的 output 语句创建一个新的数据集meansout, 程序如下: proc means data=。 class sex。 var age ine。 output out=meansout mean=mage mine sum=total range=。 run。 proc print data=meansout。 run。 运行的主要结果如表 所示。 表 用 proc means 过程的 output 语句创建一个新的数据集 上海财经大学经济信息管理系 IS/SHUFE Page 19 of 29 2. 简单算术平均和加权平均 例 某车间 20 名工人加工某种零件,按生产数量 X 分组,每组工人数为 W,求 20名工人的平均日产量。 其数据见表。 程序如下: data。 input x w @@。 cards。 14 2 15 4 16 8 17 5 18 1 run。 proc means data= mean。 var x。 run。 proc means data= mean。 var x。 weight w。 run。 表 将工人按生产数量分组 按日生产数量分组 X 工人人数 W 14 2 15 4 16 8 17 5 18 1 合计 20 显然,直接对 X 求简单平均值( =16)和用 W 权值求出的 X 加权平均值( =)是不一样的。 在这里正确的是加权平均值。 3. 分类和分组的算术平均 例 对三个班 class各随机抽取 5名学生,记录他们的性别 sex,年龄 age,体重 weight,身高 height。 按班级和性别分组计算平均值。 程序如下: data。 input class $ sex $ age weight height @@。 cards。 A F 15 46 156 A F 14 41 149 The SAS System OBS SEX _TYPE_ _FREQ_ MAGE MINCOME TOTAL AGE INCOME 1 0 5 123 32 2 F 1 2 36 2 3 M 1 3 87 31 上海财经大学经济信息管理系 IS/SHUFE Page 20 of 29 A M 15 50 160 A M 13 48 155 A M 14 38 150 B M 16 55 165 B M 16 60 170 B F 17 50 160 B F 16 60 165 B M 17 65 175 C F 18 65 165 C F 17 58 160 C M 18 70 180 C F 18 61 162 C M 17 68 176。 run。 proc print data=。 run。 proc means data=。 var age weight height。 run。 proc means data=。 var weight height。 by class。 class sex。 output out= mean=meanw meanh。 run。 proc print data=。 title 39。 Newaaa0239。 run。 提交后,主要的运行结果如表 所示。 表 在 proc means 中使用 by 和 class语句计算分类和分组平均 4. 计算 T 值和 P 概率值 例 我们从学生总体中抽样出 9 名学生的体重,计算超出标准体重的数值。 利用这组数据来检验学生总体中标准体重的假设。 通过 means 过程计算的 T 统计量和 P值,是根据原假设均值为 0,即 H0: μ =0来计算的。 用户可以在计算前设定显著性水平 的值,默认的值为。 means 过程将计算出大于这组 T 统计量的概率值。 程序如下: Newaaa02 OBS CLASS SEX _TYPE_ _。sas系统和数据分析编辑统计图形(编辑修改稿)
相关推荐
可变类平均法。 大多数的研究表明:最好综合特性的聚类方法为类平均法或 Ward 最小方差法,而最差的则为最短距离法。 Ward 最小方差法倾向于寻找观察数相同的类。 类平均法偏向寻找等方差的类。 具有最小偏差的聚类方法为最短距离法和密度估计法。 拉长的或无规则的类使用最短距离法比其他方法好。 最没有偏见的聚类方法为密度估计法。 五、 SAS 的聚类分析过程 SAS 的聚类过程能够被用来对某个
Bounds on condition number: 1, 1 Step 2 Variable AGE Entered Rsquare = C(p) = DF Sum of Squares Mean Square F ProbF Regression 2 Error 28 Total 30 Parameter Standard Type II Variable Estimate Error
性。 为了便于比较,我们将原始时间序列和消除增幅后的时间序列按 12 个时间单位的间隔绘制在一张图表上。 程序如下: data arimad02。 set arimad01。 xlog=log(x)。 proc print data=arimad02。 run。 proc gplot data=arimad02。 plot xlog*date / vaxis=axis1 haxis=axis2
Model 1 Error 198 C Total 199 Root MSE Rsquare Dep Mean Adj Rsq . Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob |T| INTERCEP 1 WEIGHT 1 上海财经大学经济信息管理系
S语句代替 INFILE语句。 所对应的一般程序结构如下: Data 所要创建的数据集名。 图 调用 VIEWTABLE 窗口浏览数据集 cc381fe59fe483e9d188433804805395 SAS 系统和数据分析 电子商务系列 上海财经大学经济信息管理系 IS/SHUFE Page 7 of 14 Infile „读取的外部文件名 ’ FIRSTOBS=开始读入的行 OBS=结束行
() 也就是 , ut 遵循以 0为均值 , (0+1u2t1 )为方差的正态分布。 tu )(,0 2 110 tuN 由于 ()中 ut 的方差依赖于前期的平方扰动项,我们称它为 ARCH(1)过程: 通常用极大似然估计得到参数 0, 1, 2, , k, 0, 1的有效估计。 容易加以推广 , ARCH (p)过程可以写为: () 这时方差方程中的