统计学
数 1个主成分和原来的第一个变量 (人均 GDP)之间的线性相关系数。 这个系数越大 , 说明主成分对该变量的代表性就越大 12 29 统计学STATISTICS (第四版 ) 2020105 根据主成分分析模型和因子载荷 , 可以得到两个主成分与原来 6个变量之间的线性组合表达式如下 怎样解释主成分。 (主成分与原始变量的关系 )
有次品的个数及概率如下表 次品数 X = xi 0 1 2 3 概率 P(X=xi)pi 每 100个配件中的次品数及概率分布 求该供应商次品数的数学期望和标准差 iii px22( ) , ( ) 0 . 7 0 5 1 0 . 8 3 9 7iiiD X x p 167。 连续变量的分布 • 取连续值的变量 , 如高度 、 长度 、重量
定义为 , 统计量 取该值或更极端的值 的概率等于 a。 也就是说 ,“ 统计量的实现值比临界值更极端 ”等价于 “ p值小于 a”。 使用临界值的概念进行的检验不计算 p值。 只比较统计量的取值和临界值的大小。 167。 假设检验的过程和逻辑 • 使用临界值而不是 p值来判断拒绝与否是前计算机时代的产物。 当时计算 p值不易 ,只采用临界值的概念。 但从给定的 a求临界值同样也不容易 ,
的无偏估计时, 方差 越 小,无偏估计越有效。 ˆ 2)ˆ( Eˆ一致性 对于无限总体, 如果对任意 , 0>0)|ˆ(| nn PL im , 则称 是 的一致估计。 充分性 一个估计量如能完全地包含未知参数信息,即为充分量。 估计量 的 ˆ 区间估计 估计未知参数所在的可能的区间。 评价准则 随机区间 置信度 精确度 随机区间
i ,m inijGxGxkl dDljki ,m a x)()(2 lklkkl xxxxD ki liGx Gxijlkkl dnnD1lkmkl WWWD 213 27 统计学STATISTICS (第四版 ) 2020105 Nearest neighbor(最短距离法 )— 用两个类别中各个数据点之间最短的那个距离来表示两个类别之间的距离
玛质量管理研究中心 62 167。 多元正态分布 定理 20世纪 70年代中期为国家标准部门制定服装标准时有成功的应用,见参考文献 [3]。 在制定服装标准时需抽样进行人体测量,现从某年龄段女子测量取出部分结果如下: 1 2 3 4 55: , , : , : , :( , ) ,X X X X X身 高 : 胸 围 腰 围 上 体 长 臀 围 ,已 知 它 们 遵 从 N 其 中 目录
2020/10/5 中国人民大学六西格玛质量管理研究中心 55 中国人民大学六西格玛质量管理研究中心167。 多元分布的基本概念 二、 分布函数与密度函数 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 56 中国人民大学六西格玛质量管理研究中心167。 多元分布的基本概念 目录 上页 下页 返回 结束 2020/10/5
这些数据分成 K个类会导致无意义的聚类。 许多聚类算法都要求给定 K,而选择几种算法进行反复检验,对于结果的分析也许是有好处的。 2020/10/5 中国人民大学六西格玛质量管理研究中心 63 167。 实际例子 目录 上页 下页 返回 结束 例 城镇居民消费水平通常用表 104中的八项指标来描述,八项指标间存在一定的线性相关。 为研究城镇居民的消费结构,需将相关性强的指标归并到一起
量是一个重要的因素 ,我们往往需要研究施肥量这一因素与粮食产量之间的关系。 • 在消费问题的研究中 ,影响消费的因素很多 ,但我们可以只研究国民收入与消费额之间的关系 ,因为国民收入是影响消费的最主要因素。 • 保险公司在研究火灾损失的规律时 ,把火灾发生地与最近的消防站的距离作为一个最主要因素 ,研究火灾损失与火灾发生地距最近消防站的距离之间的关系。 目录 上页 下页 返回 结束
2. 一元线性 回归模型可表示为 y = + 1 x + y 是 x 的线性函数 (部分 )加上误差项 线性部分反映了由于 x 的变化而引起的 y 的变化 误差项 是随机变量 反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响 是不能由 x 和 y 之间的线性关系所解释的变异性 0 和 1 称为模型的参数 9 31