第七章抽样调查及推断(编辑修改稿)内容摘要:

范围。 抽样误差不是一个固定的数值,它的数值随样本的不同而 不同 ,所以它是一个随机变量。 (二)抽样误差的影响因素 影响抽样误差大小的因素主要有: 总体各单位标志值的差异程度 样本单位数的多少 抽样的方法 抽样的方式 总体各单位标志值的差异程度。 在其他条件不变的情况下,总体各单位标志值的差异程度愈大,抽样误差也愈大,反之则愈小。 样本单位数的多少。 在其他条件不变的情况下,抽取单位数愈多,抽样误差就愈小,反之则 愈大。 抽样的方法。 抽样方法不同,抽样误差也不同。 一般说来,重复抽样的误差要大于不重复抽样的误差。 抽样的方式。 不同的抽样方式,也会有不同的抽样误差。 一般情况下,纯随机抽样和整群抽样抽样误差大一些,类型抽样和等距抽样抽样误差小一些。 二、抽样平均误差 (一)抽样平均误差的计算 抽样平均误差 是反映抽样误差一般水平的指标。 因为 每一个可能的随机样本的指标与总体指标都存在着抽样误差,并且在数值上都是各不相同的 , 为了衡量 其一般水平 ,就需要计算 抽样平均误差。 所谓 抽样平均误差 是指所有可能出现的样本的平均数 (或成数)的标准差。 根据标准差的计算方法,样本平均数(或成数)的标准差等于样本平均数(或成数)与其平均数离差的平方的算术平均数的平方根。 由于样本平均数的平均数等于总体平均数,样本成数的平均数等于总体成数,因此,样本指标的标准差就是反映样本指标与总体指标的平均离差程度。 从这一概念出发,抽样平均误差的定义公式为: 全部可能的样本个数2)( Xx ix  全部可能的样本个数2)( Pp ip  式中:x表示样本平均数的抽样平均误差 p 表示样本成数的抽样平均误差 ix 表示各个可能出现的样本的平均数 X 表示全及平均数 ip 表示各个可能出现的样本的成数 P 表示全及成数 定义公式反映了抽样平均误差的理论意义。 但是由于可能的样本数目很多,抽取所有的样本计算其平均数和成数是不 现实 的,同时总体平均 数 X 与成数 P也是未知的, 所以 按上述公式计算抽样平均误差实际上是不可行的。 为此,数理统计论证了以下公式可以用于计算抽样平均误差,且与定义公式计算的结果完全 相同。 平均数的抽样平均误差的计算 在重复抽样的条件下,其公式为: nx   在不重复抽样的条件下,其公式为:   12N nNnx  式中,  为总体标准差: N 为总体单位数; n 为样本容量。 当 N 的值较大时 ,上式可以简化为:   Nnnx 12 某 镇 欲从 30000 亩水稻中随机抽取 500 亩进行产量调查,根据以往调查资料可知总体标准差为 112 公斤, 试 计算抽样平均误差。 根据题意,已知 N=30000 亩, n=500 亩,  =112 公斤 那么,在重复抽样条件下 : 550011222 nx (公斤) 在不重复抽样条件下 : 公斤)(300005001500112122    Nnnx  成数的抽样平均误差的计算 在 第四章 标志变异指标中 已经讲述成数( P)的方差等于 P( 1- P)。 因此成数的抽样平均误差公式应为: 在重复抽样的条件下,其公式为: n PPp )1(  在不重复抽样的条件下,其公式为:   1)1( N nNn PPp 可简化成:   Nnn PPp 1)1( 式中: P 为全及成数,其它符号同前。 例 某企业检查产品质量,从 5000 件产品中随机抽取 200 件进行检验,结果有12 件不合格,试计算合格品比率的抽样平均误差。 根据已知资料可计算出: 样本合格品的成数 : %94200 12200 P 样本成数的方差 : %%6%94)1(  PP 那么,在重复抽样条件下,合格率的抽样平均误差为: % %)1(  n PPp 在不重复抽样条件下,合格率的抽样平均误差为: % %)1(    Nnn PPp 本例中,是用样本的方差代替总体方差来计算抽样平均误差的。 从 上面的 两个例子 可以看出, 在总体方差为已知的条件下才能计算 抽样平均误差 ,但是,在抽样推断之前总体方差是未知的。 为此,在实际工作中通常用以下几种途经解决: 第一、用历史资料代替。 如果以前进行过同类型的全面调查或抽样调查,可以用过去所掌握的总体方差或样本方差。 若作过多次调查,有许多个方差资料,一般宜选用其中最大的方差。 第二、用样本方差代替。 只要样本的分布接近总体分布,样本方差就十分接近于总体方差。 但是它只能在抽样调查之后计算。 第三、进行试验性的抽样调查取得方差估计资料。 如果没有历史资料,又例 需要在调查前计算出抽样平均误差,则可以组织一次小规模的试验性的抽样调查,计算出抽样方差作为总体方差的估计值。 某镇种植小麦 50000 亩,其中平原 40000 亩,山区 10000 亩,采用不重复抽样,按 2%的比例抽取样本进行产量调查,根据实割实测结果计算的样本指标见 下 表,试计算抽样平均误差。 某镇小麦产量抽样调查结果及标准差 类型 全部面积 (亩) Ni 样本面积 (亩) ni 样本平均亩产 (千克) ix 样本标准差 (千克) i 平原 山区 40000 10000 800 200 360 250 80 60 合计 50000 1000 - - 平均组内方差: 58401000 2020200080 2222  n n iii (千克) 抽样平均误差: 5 0 0 0 01 0 0 011 0 0 05 8 4 012    Nnnix (千克) 三、抽样极限误差 上面讲的抽样平均误差并不是样本指标与总体指标之间的绝对离差,而是一个 相差的范围。 由于总体指标是一个未知的确定量,而样本指示是一个随机变量,随不同的样本组合而发生变化,它总是在总体指标左右两侧变动,从而产生正离差或负离差。 抽样误差范围 是指变动的样本指标与确定的全及指标之间离差的可能范围。 它是根据概率理论,以一定的可靠程度保证抽样误差不超过某一给定的范围。 统计上把 这个给定的 抽样误差范围叫做抽样极限误差。 讨论交流 由于这个误差范围往往是实际调查中,人们根据研究对象的差异程度和分析任务的需要而确定的可允许的最大误差范围,因此,抽样极限误差习惯上又称为允许误差。 若以x和 △ p 分别表示平均数与成数的抽样极限误差,则有 Xxx  Ppp  将两个式子的绝对值展开,经过变换,可以得到下列关系式: xx XxX  pPppP  在 实际 工作中 应改变上述关系式为: xx xXx  pp pPp  四、抽样误差的可靠程度 抽样极限误差是指抽样误差范围,而且仅仅是一个可能的范围,而不是一个绝对可靠的范围。 它是根据抽样推断的要求以及抽样控制的把握程度来确定的。 所以,进行抽样推断不仅要考虑其准确程度,还应研究推断的可靠程度。 抽样极限误差通常是以抽样平均误差作为标准来衡量的,即用x或 p 分别去除x或 p ,得出相对数 t,在数理统计中称 t 为概率度,表示相对误差范围。 用公式表示为: xxt  , ppt  抽样极限误差也可以表示为抽样平均误差的若干倍,倍数就是概率度 t ,用公式表示如下: xx t  pp t  在抽样平均误差为一定的条件下, 概率度 t 的数值愈大,抽样极限误差 △也愈大,抽样推断的可靠程度也愈高,反之, t 的数值愈小, △也愈小,抽样推断的可靠程度也就愈低。 如果把可靠程度即概率用 P 表示,那么 P 就是 t 的函数,也就是 P= F( t),表明概率分布是概率度的函数。 从一个全及总体中连续进行多次抽样,可以得到一系列的样本,分别求出各个样本的平均数(或成数),便可形成一个抽样平均数(或成数)的概率分布。 在样本单位数足够多( n≥ 30)的条件下,样本平均数(或成数)的分布接近于正态分布。 在正态分布下,以正态分布曲线下总面积为 1 或 100%, F( t)就是所 占总面积的百分比,它可以表现推断结果的可靠程度。 如 下 图所示。 在正态分布下,由于概率是概率度的函数。 我们可以通过给定的概率保证程度 F( t),查《正态分布概率表》,直接从表中找出相应地概率度 t 的值。 在抽样推断中最常用的几个概率度 t 与概率之间的函数关系见 下 表。 3x 2x x x。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。