sas系统和数据分析总体均值的估计(编辑修改稿)内容摘要:

统计量关 键字 =变量名列表 —— 规定在输出数据集中要包含的统计量并规定这些统计量在新数据集中的变量名。 means 过程对 output 语句的次数没有限制,可以使用几个 output 语句来创建内容不同的多个数据集。 fca48c22ad1925ee3c7b5a972c278094 SAS 系统和数据分析 电子商务系列 上海财经大学经济信息管理系 IS/SHUFE Page 12 of 55 4. 其他语句  var语句 —— 规定要求计算简单描述性统计量的数值变量的次序。  by语句 —— 按 by语句定义的变量进行分组计算其相应的简单统计量 ,要求输入数据集已按 by 变量排序。  class语句 —— 与 by语句一样,可用 class变量定义观测组,分别计算各组观测的描述统计量。 输出格式与 by不同且事先不需要按 class 变量排序。  freq 语句 —— 指定一个数值型的 freq变量,它的值表示输入数据集中相应观测出现的频数。  weight 语句 —— 规定一个 weight 变量,它的值表示相应观测的权数。  id 语句 —— 在输出数据集中增加一个或几个附加变量,目的在于识别输出数据集里的观测。 其值为生成这个观测的输入数据集中相应观测组里 id 变量具有的最大值。 五、 实例分析 1. 用 output 语句创建一个新的数据集 例 我们对原数据集 survey,用 means 过程的 output 语句创建一个新的数据集meansout, 程序如下: proc means data=。 class sex。 var age ine。 output out=meansout mean=mage mine sum=total range=。 run。 proc print data=meansout。 run。 运行的主要结果 如 表 所示。 表 用 proc means 过程的 output 语句创建一个新的数据集 2. 简单算术平均和加权平均 例 某车间 20 名工人加工某种零件,按生 产数量 X 分组,每组工人数为 W,求 20名工人的平均日产量。 其数据见表。 程序如下: The SAS System OBS SEX _TYPE_ _FREQ_ MAGE MINCOME TOTAL AGE INCOME 1 0 5 123 32 2 F 1 2 36 2 3 M 1 3 87 31 fca48c22ad1925ee3c7b5a972c278094 SAS 系统和数据分析 电子商务系列 上海财经大学经济信息管理系 IS/SHUFE Page 13 of 55 data。 input x w @@。 cards。 14 2 15 4 16 8 17 5 18 1 run。 proc means data= mean。 var x。 run。 proc means data= mean。 var x。 weight w。 run。 表 将工人按生产数 量分组 按日生产数量分组 X 工人人数 W 14 2 15 4 16 8 17 5 18 1 合计 20 显然,直接对 X 求简单平均值( =16)和用 W 权值求出的 X 加权平均值( =)是不一样的。 在这里正确的是加权平均值。 3. 分类和分组的算术平均 例 对三个班 class各随机抽取 5名学生,记录他们的性别 sex,年龄 age,体重 weight,身高 height。 按班级和性别分组计算平均值。 程序如下: data。 input class $ sex $ age weight height @@。 cards。 A F 15 46 156 A F 14 41 149 A M 15 50 160 A M 13 48 155 A M 14 38 150 B M 16 55 165 B M 16 60 170 B F 17 50 160 B F 16 60 165 B M 17 65 175 C F 18 65 165 C F 17 58 160 C M 18 70 180 C F 18 61 162 C M 17 68 176。 run。 proc print data=。 fca48c22ad1925ee3c7b5a972c278094 SAS 系统和数据分析 电子商务系列 上海财经大学经济信息管理系 IS/SHUFE Page 14 of 55 run。 proc means data=。 var age weight height。 run。 proc means data=。 var weight height。 by class。 class sex。 output out= mean=meanw meanh。 run。 proc print data=。 title 39。 Newaaa0239。 run。 提交后,主要的运行结果 如 表 所示。 表 在 proc means 中使用 by 和 class语句计算分类和分组平均 4. 计算 T 值和 P 概率值 例 我们从学生总体中抽样出 9 名学生的体重,计算超出标准体重的数值。 利用这组数据来检验学生总体中标准体重的假设。 通过 means 过程计算的 T 统计量和 P 值,是根据原假设均值为 0,即 H0: μ =0 来计算的。 用户可以在计算前设定显著性水平  的值,默认的值为。 means 过程将计算出大于这组 T 统计量的概率值。 程序如下: data x。 input x @@。 cards。 7 2 1 3 6 10 15 21 30。 proc means data=x n mean var std stderr t prt。 run。 Newaaa02 OBS CLASS SEX _TYPE_ _FREQ_ MEANW MEANH 1 A 0 5 2 A F 1 2 3 A M 1 3 4 B 0 5 5 B F 1 2 6 B M 1 3 7 C 0 5 8 C F 1 3 9 C M 1 2 fca48c22ad1925ee3c7b5a972c278094 SAS 系统和数据分析 电子商务系列 上海财经大学经济信息管理系 IS/SHUFE Page 15 of 55 程序运行的主要结果 如 表 所示。 表 计算 T 值和 P概率值 从计算结果可见, T值为 (临界值),故在 5%的显著水平上接受假设 H0。 如果选 择显著性水平为 10%,这时 T 分布的临界值为 , ,故应拒绝原假设。 因为此例样本量太小, 所以 结论的有效性非常强地依赖于总体的分布接近正态分布的程度。 另外 , 一种更直接的检验方法是查看计算出的 P 值。 该值说明总体均值在此概率水平上显著地不为 0。 一般地 , 若取显著水平  =,因 ,故接受 H0的假设;若取  =,因 ,故拒绝 H0的原假设。 5. 与均值有关的单组统计分析 例 某物品的某成分的数据真值为 ,现用某法重复测定物品成分 11 次(数据见程序中),问用该法测定所得的总体均值与真值之间的差别是否有显著性。 程序如下: data meantest。 input x @@。 y=。 cards。 run。 proc means mean stderr t prt。 var y。 run。 输出的主要结果见表 所示。 表 与均值有关的单组统计分析结果 输出结果分析: T=, P=,不能拒绝原假设 u=0,接受原假设,即用该法测定所得的总体均值与真值之间的差别无显著性。 The SAS System Analysis Variable : X N Mean Variance Std Dev Std Error T Prob|T| 9 The SAS System Analysis Variable : Y Mean Std Error T Prob|T| fca48c22ad1925ee3c7b5a972c278094 SAS 系统和数据分析 电子商务系列 上海财经大学经济信息管理系 IS/SHUFE Page 16 of 55 六、 详细的描述性统计 proc univariate 过程 SAS 的 univariate 过程主要用于对指定随机变量进行详细的描述性统计。 该过程除了可以完成 means 过程的基本统计量的计算外,它还可以生 成统计图和计算其他的一些统计量。 两者的用法基本类似,主要区别在于 means 允许使用 class 语句,而 univariate 过程可绘制茎叶图、盒型图和计算各种百分位值。 1. 单变量统计分析 对一组单指标实验数据进行分析常采用两种方法:  图示法 —— 包括茎叶图、盒型图和正态概率图。  描述统计量 —— 包括矩、分位数、极端值和頻数分布表。 2. 茎叶图( Stemandleaf display) 茎叶图是探索性数据分析中对数据的初步形象描述 ,有点像直方图,但主要的差异在于茎叶图是用数据代替直方图中的矩形,这样既有了直观的图示,又 有了对具体数据的大致了解。 每一个数据分解为三个部分:  茎  叶  可忽略部分 3. 盒型图( Boxplot) 我们对数据组分布的粗略描述,常采用“五数概括” (five number summaries), 即数据组中的最小数、下四分位数、中位数、上四分位数与最大数。 但五数概括没有 像 直方图、茎叶图那样给人以直观的感觉。 与五数概括联系在一起的图像是盒型图,它与茎叶图一样常用于探索性。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。