统计学概率和分布(编辑修改稿)内容摘要:
有次品的个数及概率如下表 次品数 X = xi 0 1 2 3 概率 P(X=xi)pi 每 100个配件中的次品数及概率分布 求该供应商次品数的数学期望和标准差 iii px22( ) , ( ) 0 . 7 0 5 1 0 . 8 3 9 7iiiD X x p 167。 连续变量的分布 • 取连续值的变量 , 如高度 、 长度 、重量 、 时间 、 距离等等;它们被称为连续变量 (continuous variable)。 • 换言之 , 一个随机变量如果能够在一区间 ( 无论这个区间多么小 ) 内取任何值 , 则该变量称为在此区间内是连续的 , 其分布称为连续型概率分布。 • 它们的概率分布很难准确地用离散变量概率的条形图表示。 167。 连续变量的分布 • 想象连续变量观测值的直方图;如果其纵坐标为相对频数 , 那么所有这些矩形条的高度和为 1;完全可以重新设置量纲 , 使得这些矩形条的面积和为 1。 • 不断增加观测值及直方图的矩形条的数目 , 直方图就会越来越像一条光滑曲线 ,其下面的面积和为 1。 • 该曲线即所谓 概率密度函数 (probability density function, pdf), 简称密度函数或密度。 下图为这样形成的密度曲线。 ( 1 ) ( 2 )( 3 ) ( 4 )2 0 20.00.10.20.30.4逐渐增加矩形条数目的直方图和一个形状类似的密度曲线。 167。 连续变量的分布 • 连续变量落入某个区间的概率就是概率密度函数的曲线在这个区间上所覆盖的面积;因此 , 理论上 , 这个概率就是密度函数在这个区间上的积分。 • 对于连续变量 , 取某个特定值的概率都是零 , 而只有变量取值于某个 ( 或若干个 ) 区间的概率才可能大于 0。 • 连续变量密度函数曲线 ( 这里用 f表示 )下面覆盖的总面积为 1, 即 ( ) 1f x d x167。 正态分布 • 在北京市场上的精制盐很多是一公斤袋装 , 上面标有 “ 净含量 1kg”的字样。 但当你用稍微精确一些的天平称那些袋装盐的重量时 , 会发现有些可能会重些 ,有些可能会轻些;但都是在 1kg左右。 多数离 1kg不远 , 离 1kg越近就越可能出现 , 离 1kg越远就越不可能。 • 一般认为这种重量分布近似地服从最常用的 正态分布 (normal distribution, 又叫 高斯分布 , Gaussian distribution)。 167。 正态分布 • 近似地服从正态分布的变量很常见 , 象测量误差 、 商品的重量或尺寸 、 某年龄人群的身高和体重等等。 • 在一定条件下 , 许多不是正态分布的样本均值在样本量很大时 ,也可用正态分布来近似。 167。 正态分布 • 正态分布的密度曲线是一个对称的钟型曲线 ( 最高点在均值处 )。 正态分布也是一族分布 , 各种正态分布根据它们的均值和标准差不同而有区别。 • 一个正态分布用 N(,)表示;其中 为均值 , 而 为标准差。 也常用N(,2)来表示 , 这里 2为方差 ( 标准差的平方 )。 167。 正态分布 • 标准差为 1的正态分布 N(0, 1)称为 标准正态分布 (standard normal distribution)。 • 标准正态分布的密度函数用 f(x)表示。 • 任何具有正态分布 N(,)的随机变量 X都可以用简单的变换 ( 减去其均值 , 再除以标准差 ) : Z=(X)/, 而成为标准正态随机变量。 这种变换和标准得分的意义类似。 4 2 0 2 4N(0,1)N(2,)两条正态分布的密度曲线。 左边是N(2,)分布,右边是 N(0, 1)分布 167。 正态分布 • 当然 , 和所有连续变量一样 , 正态变量落在某个区间的概率就等于在这个区间上 , 密度曲线下面的面积。 • 比如 , 标准正态分布变量落在区间 (,)中的概率 , 就是在标准正态密度曲线下面在 间的面积。 • 很容易得到这个面积等于 ;也就是说 , 标准正态变量在区间 (,)中的概率等于。 如果密度函数为 f(x), 那么这个面积为积分 1 . 5 70 . 5 1( ) 0 . 2 4 6 8 2x d xf 4 3 2 1 0 1 2 3 400 . 0 50 . 10 . 1 50 . 20 . 2 50 . 30 . 3 50 . 4P r o b a b i l i t y B e t w e e n L i m i t s i s 0 . 2 4 6 8 2DensityC r i t i c a l V a l u e标准正态变量在区间 (, )中的概率 167。 正态分布 • 我们有必要引进总体的下侧分位数 、 上侧分位数以及相应的尾概率的概念。 • 对于连续型随机变量 X, 下侧分位数( 又称为 分位数 , quantile) 定义为数 x, 它满足关系 ()P X x 这里的 又 称为下(左)侧尾概率( lower/left tail probability) 167。 正态分布 • 而 上侧分位数 ( 又称 上 分位数 ,upper quantile) 定义为数 x, 它满足关系 ()P X x 这里的 也 称为上(右)侧尾概率( upper/right tail probability)。 167。 正态分布 • 对于非连续型的分布 , 分位数的定义稍微复杂一些; • 显然 , 对于连续分布 , 上侧分位数等于 (1- )下侧分位数 , 而(1- )下侧分位数等于 上侧分位数。 167。 正态分布 通常 用 z表示标准正态分布的 上侧分位数 , 即对于标准正态分布变量 Z, 有 P(Zz)=。 图 z= 及 相 应 的 尾 概 率( )。 有些书用符号 z1- 而不是 z;因此在看参考文献时要注意符号的定义。 3 2 1 0 1 2 300 . 0 50 . 10 . 1 50 . 20 . 2 50 . 30 . 3 50 . 4z v a l u eDensity of N(0,1)T a i l P r o b a b i l i t y f o r N ( 0 , 1 )z0 . 0 5= 1 . 6 4 5P ( z z0 . 0 5)= = 0 . 0 5P ( z z0 . 0 5) = 1 = 0 . 9 5N(0,1)分布右侧尾概率 P(zz)=的示意图 167。 c2分布 • 一个由正态变量导出的分布是 c2分布 (chisquare distribution, 也翻译为卡方分布 )。 该分布在一些检验中会用到。 • n个独立正态变量平方和称为有 n个自由度的 c2分布 ,记为 c2(n)。 c2分布为一族分布 , 成员由自由度区分。 • 由于 c2分布变量为正态变量的平方和 , 它不会取负值。 0 2 4 6 8 10c2(2)c2(3)c2(5)自由度为 5的 c2分布密度曲线图 167。 t分布 • 正态变量的样本均值也是正态变量 ,能利用减去其均值再除以其 (总体 )标准差来得到标准正态变量。 • 但用样本标准差来代替未知的总体标准差时 , 得到的结果分布就不再是标准正态分布了。 它的密度曲线看上去有些象标准正态分布 , 但是中间瘦一些 , 而且尾巴长一些。 这种分布称为 t分布 (tdistribution, 或学生分布 , Student’s t)。 167。 t分布 • 不同的样本量通过标准化所产生的 t分布也不同 , 这样就形成一族分布。 • t分布族中的成员是以自由度来区分的。 这里的自由度等于样本量减去 1( 如果样本量为 n, 刚才定义的 t分布的自由度为 n1)。 • 由于产生 t分布的方式很多 , 简单说自由度就是样本量减 1是不准确的。 自由度甚至不一定是整数。 4 2 0 2 4N(0,1)t(1)标准正态分布和 t(1)分布的密度图 167。 t分布 通常 用 t表示 t分布相应于右侧尾概率 的 t变量的 上侧分位数 ,即对于 t分布变量 T, 有 P(Tt)=。 在突出自由度时 , 也用 tn, , 也有用 t1- 或 tn, 1- 表示的。 图 2的 t(2)分布右边的尾概率 ( )。 5 4 3 2 1 0 1 2 3 4 500 . 0 50 . 10 . 1 50 . 20 . 2 50 . 30 . 3 50 . 4t v a l u eDensity of t(2)T a i l P r o b a b i l i t y f o r t ( 2 )t0 . 0 5= 2 . 9 2P。统计学概率和分布(编辑修改稿)
相关推荐
数 1个主成分和原来的第一个变量 (人均 GDP)之间的线性相关系数。 这个系数越大 , 说明主成分对该变量的代表性就越大 12 29 统计学STATISTICS (第四版 ) 2020105 根据主成分分析模型和因子载荷 , 可以得到两个主成分与原来 6个变量之间的线性组合表达式如下 怎样解释主成分。 (主成分与原始变量的关系 )
i ,m inijGxGxkl dDljki ,m a x)()(2 lklkkl xxxxD ki liGx Gxijlkkl dnnD1lkmkl WWWD 213 27 统计学STATISTICS (第四版 ) 2020105 Nearest neighbor(最短距离法 )— 用两个类别中各个数据点之间最短的那个距离来表示两个类别之间的距离
) h 雕牌 ( ) ( 3题多项选择法) 评分标准 很好 10分 好 8分 较好 6分 一般 4分 差 2分 请按以上的评分标准给第三题中列出的牙膏质量评定分数,分数填入括号内。 (赋值选择法) 你对我厂生产的中华牌牙膏有什么意见。 ——————————。 (自由回答法) 代表性误差 抽样框误差 回答误差 无回答误差 调查员误差 工作误差 调查误差
定义为 , 统计量 取该值或更极端的值 的概率等于 a。 也就是说 ,“ 统计量的实现值比临界值更极端 ”等价于 “ p值小于 a”。 使用临界值的概念进行的检验不计算 p值。 只比较统计量的取值和临界值的大小。 167。 假设检验的过程和逻辑 • 使用临界值而不是 p值来判断拒绝与否是前计算机时代的产物。 当时计算 p值不易 ,只采用临界值的概念。 但从给定的 a求临界值同样也不容易 ,
的无偏估计时, 方差 越 小,无偏估计越有效。 ˆ 2)ˆ( Eˆ一致性 对于无限总体, 如果对任意 , 0>0)|ˆ(| nn PL im , 则称 是 的一致估计。 充分性 一个估计量如能完全地包含未知参数信息,即为充分量。 估计量 的 ˆ 区间估计 估计未知参数所在的可能的区间。 评价准则 随机区间 置信度 精确度 随机区间
累计频数) 向下累计分布:(变量下限,累计频数) 变量的组数无限增多时,折线便趋于一条光滑的曲线。 图形 0102030405060708090第一季度 第二季度 第三季度 第四季度0102030405060708090100第一季度 第二季度 第三季度 第四季度东部第一季度第二季度第三季度第四季度01020304050607080901000 2 4 6东部返回 综合指标概述 总量指标