统计学概率和分布(编辑修改稿)内容摘要:

有次品的个数及概率如下表 次品数 X = xi 0 1 2 3 概率 P(X=xi)pi 每 100个配件中的次品数及概率分布 求该供应商次品数的数学期望和标准差   iii px22( ) , ( ) 0 . 7 0 5 1 0 . 8 3 9 7iiiD X x p     167。 连续变量的分布 • 取连续值的变量 , 如高度 、 长度 、重量 、 时间 、 距离等等;它们被称为连续变量 (continuous variable)。 • 换言之 , 一个随机变量如果能够在一区间 ( 无论这个区间多么小 ) 内取任何值 , 则该变量称为在此区间内是连续的 , 其分布称为连续型概率分布。 • 它们的概率分布很难准确地用离散变量概率的条形图表示。 167。 连续变量的分布 • 想象连续变量观测值的直方图;如果其纵坐标为相对频数 , 那么所有这些矩形条的高度和为 1;完全可以重新设置量纲 , 使得这些矩形条的面积和为 1。 • 不断增加观测值及直方图的矩形条的数目 , 直方图就会越来越像一条光滑曲线 ,其下面的面积和为 1。 • 该曲线即所谓 概率密度函数 (probability density function, pdf), 简称密度函数或密度。 下图为这样形成的密度曲线。 ( 1 ) ( 2 )( 3 ) ( 4 )2 0 20.00.10.20.30.4逐渐增加矩形条数目的直方图和一个形状类似的密度曲线。 167。 连续变量的分布 • 连续变量落入某个区间的概率就是概率密度函数的曲线在这个区间上所覆盖的面积;因此 , 理论上 , 这个概率就是密度函数在这个区间上的积分。 • 对于连续变量 , 取某个特定值的概率都是零 , 而只有变量取值于某个 ( 或若干个 ) 区间的概率才可能大于 0。 • 连续变量密度函数曲线 ( 这里用 f表示 )下面覆盖的总面积为 1, 即 ( ) 1f x d x167。 正态分布 • 在北京市场上的精制盐很多是一公斤袋装 , 上面标有 “ 净含量 1kg”的字样。 但当你用稍微精确一些的天平称那些袋装盐的重量时 , 会发现有些可能会重些 ,有些可能会轻些;但都是在 1kg左右。 多数离 1kg不远 , 离 1kg越近就越可能出现 , 离 1kg越远就越不可能。 • 一般认为这种重量分布近似地服从最常用的 正态分布 (normal distribution, 又叫 高斯分布 , Gaussian distribution)。 167。 正态分布 • 近似地服从正态分布的变量很常见 , 象测量误差 、 商品的重量或尺寸 、 某年龄人群的身高和体重等等。 • 在一定条件下 , 许多不是正态分布的样本均值在样本量很大时 ,也可用正态分布来近似。 167。 正态分布 • 正态分布的密度曲线是一个对称的钟型曲线 ( 最高点在均值处 )。 正态分布也是一族分布 , 各种正态分布根据它们的均值和标准差不同而有区别。 • 一个正态分布用 N(,)表示;其中 为均值 , 而 为标准差。 也常用N(,2)来表示 , 这里 2为方差 ( 标准差的平方 )。 167。 正态分布 • 标准差为 1的正态分布 N(0, 1)称为 标准正态分布 (standard normal distribution)。 • 标准正态分布的密度函数用 f(x)表示。 • 任何具有正态分布 N(,)的随机变量 X都可以用简单的变换 ( 减去其均值 , 再除以标准差 ) : Z=(X)/, 而成为标准正态随机变量。 这种变换和标准得分的意义类似。 4 2 0 2 4N(0,1)N(2,)两条正态分布的密度曲线。 左边是N(2,)分布,右边是 N(0, 1)分布 167。 正态分布 • 当然 , 和所有连续变量一样 , 正态变量落在某个区间的概率就等于在这个区间上 , 密度曲线下面的面积。 • 比如 , 标准正态分布变量落在区间 (,)中的概率 , 就是在标准正态密度曲线下面在 间的面积。 • 很容易得到这个面积等于 ;也就是说 , 标准正态变量在区间 (,)中的概率等于。 如果密度函数为 f(x), 那么这个面积为积分 1 . 5 70 . 5 1( ) 0 . 2 4 6 8 2x d xf 4 3 2 1 0 1 2 3 400 . 0 50 . 10 . 1 50 . 20 . 2 50 . 30 . 3 50 . 4P r o b a b i l i t y B e t w e e n L i m i t s i s 0 . 2 4 6 8 2DensityC r i t i c a l V a l u e标准正态变量在区间 (, )中的概率 167。 正态分布 • 我们有必要引进总体的下侧分位数 、 上侧分位数以及相应的尾概率的概念。 • 对于连续型随机变量 X, 下侧分位数( 又称为 分位数 , quantile) 定义为数 x, 它满足关系 ()P X x  这里的 又 称为下(左)侧尾概率( lower/left tail probability) 167。 正态分布 • 而 上侧分位数 ( 又称 上 分位数 ,upper quantile) 定义为数 x, 它满足关系 ()P X x  这里的 也 称为上(右)侧尾概率( upper/right tail probability)。 167。 正态分布 • 对于非连续型的分布 , 分位数的定义稍微复杂一些; • 显然 , 对于连续分布 , 上侧分位数等于 (1- )下侧分位数 , 而(1- )下侧分位数等于 上侧分位数。 167。 正态分布  通常 用 z表示标准正态分布的 上侧分位数 , 即对于标准正态分布变量 Z, 有 P(Zz)=。  图 z= 及 相 应 的 尾 概 率( )。 有些书用符号 z1- 而不是 z;因此在看参考文献时要注意符号的定义。 3 2 1 0 1 2 300 . 0 50 . 10 . 1 50 . 20 . 2 50 . 30 . 3 50 . 4z v a l u eDensity of N(0,1)T a i l P r o b a b i l i t y f o r N ( 0 , 1 )z0 . 0 5= 1 . 6 4 5P ( z z0 . 0 5)=  = 0 . 0 5P ( z z0 . 0 5) = 1  = 0 . 9 5N(0,1)分布右侧尾概率 P(zz)=的示意图 167。 c2分布 • 一个由正态变量导出的分布是 c2分布 (chisquare distribution, 也翻译为卡方分布 )。 该分布在一些检验中会用到。 • n个独立正态变量平方和称为有 n个自由度的 c2分布 ,记为 c2(n)。 c2分布为一族分布 , 成员由自由度区分。 • 由于 c2分布变量为正态变量的平方和 , 它不会取负值。 0 2 4 6 8 10c2(2)c2(3)c2(5)自由度为 5的 c2分布密度曲线图 167。 t分布 • 正态变量的样本均值也是正态变量 ,能利用减去其均值再除以其 (总体 )标准差来得到标准正态变量。 • 但用样本标准差来代替未知的总体标准差时 , 得到的结果分布就不再是标准正态分布了。 它的密度曲线看上去有些象标准正态分布 , 但是中间瘦一些 , 而且尾巴长一些。 这种分布称为 t分布 (tdistribution, 或学生分布 , Student’s t)。 167。 t分布 • 不同的样本量通过标准化所产生的 t分布也不同 , 这样就形成一族分布。 • t分布族中的成员是以自由度来区分的。 这里的自由度等于样本量减去 1( 如果样本量为 n, 刚才定义的 t分布的自由度为 n1)。 • 由于产生 t分布的方式很多 , 简单说自由度就是样本量减 1是不准确的。 自由度甚至不一定是整数。 4 2 0 2 4N(0,1)t(1)标准正态分布和 t(1)分布的密度图 167。 t分布  通常 用 t表示 t分布相应于右侧尾概率 的 t变量的 上侧分位数 ,即对于 t分布变量 T, 有 P(Tt)=。 在突出自由度时 , 也用 tn, , 也有用 t1- 或 tn, 1- 表示的。  图 2的 t(2)分布右边的尾概率 ( )。 5 4 3 2 1 0 1 2 3 4 500 . 0 50 . 10 . 1 50 . 20 . 2 50 . 30 . 3 50 . 4t v a l u eDensity of t(2)T a i l P r o b a b i l i t y f o r t ( 2 )t0 . 0 5= 2 . 9 2P。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。