统计学第四版主成分分析和因子分析(编辑修改稿)内容摘要:
数 1个主成分和原来的第一个变量 (人均 GDP)之间的线性相关系数。 这个系数越大 , 说明主成分对该变量的代表性就越大 12 29 统计学STATISTICS (第四版 ) 2020105 根据主成分分析模型和因子载荷 , 可以得到两个主成分与原来 6个变量之间的线性组合表达式如下 怎样解释主成分。 (主成分与原始变量的关系 ) 65432126543211xxxxxxyxxxxxxy注意:表达式中的不是原始变量,而是标准化变量 12 30 统计学STATISTICS (第四版 ) 2020105 载荷图 (Loading Plot)直观显示主成分对原始 6变量的解释情况 图中横轴表示第一个主成分与原始变量间的相关系数;纵轴表示第二个主成分与原始变量之间的相关系数 每一个变量对应的主成分载荷就对应坐标系中的一个点 , 比如 , 人均 GDP变量对应的点是(, ) 第一个主成分很充分地解释了原始的 6个变量 (与每个原始变量都有较强的正相关关系 ), 第二个主成分则较好地解释了居民消费水平 、 人均 GDP和年末总人口这 3个变量 (与它们的相关关系较高 ), 而与其他变量的关系则较弱 (相关系数的点靠近坐标轴 ) 怎样解释主成分。 (Loading Plot) 相关系数的点越远离坐标轴 , 主成分对原始变量的代表性就越大。 这 3个点远离主成分 2的坐标 因子分析 因子分析的意义和数学模型 因子分析的步骤 因子分析的应用 第 12 章 主成分分析和因子分析 因子分析的意义和数学模型 因子分析 12 33 统计学STATISTICS (第四版 ) 2020105 由 Charles Spearman于 1904年首次提出的 与主成分分析类似 , 它们都是要找出少数几个新的变量来代替原始变量 不同之处:主成分分析中的主成分个数与原始变量个数是一样的 , 即有几个变量就有几个主成分 , 只不过最后我们确定了少数几个主成分而已。 而因子分析则需要事先确定要找几个成分 , 也称为因子(factor), 然后将原始变量综合为少数的几个因子 ,以再现原始变量与因子之间的关系 , 一般来说 , 因子的个数会远远少于原始变量的个数 什么是因子分析。 (factor analysis) 12 34 统计学STATISTICS (第四版 ) 2020105 因子分析可以看作是主成分分析的推广和扩展 , 但它对问题的研究更深入 、 更细致一些。 实际上 , 主成分分析可以看作是因子分析的一个特例 通过对变量之间关系的研究 , 找出能综合原始变量的少数几个因子 , 使得少数因子能够反映原始变量的绝大部分信息 , 然后根据相关性的大小将原始变量分组 , 使得组内的变量之间相关性较高 , 而不同组的变量之间相关性较低 属于多元统计中处理降维的一种统计方法 , 其目的就是要减少变量的个数 , 用少数因子代表多个原始变量 什么是因子分析。 (factor analysis) 12 35 统计学STATISTICS (第四版 ) 2020105 因变量和因子个数的不一致 , 使得不仅在数学模型上 , 而且在实际求解过程中 , 因子分析和主成分分析都有着一定的区别 , 计算上因子分析更为复杂 因子分析可能存在的一个优点是:在对主成分和原始变量之间的关系进行描述时 , 如果主成分的直观意义比较模糊不易解释 , 主成分分析没有更好的改进方法;因子分析则额外提供了 “ 因子旋转 (factor rotation)”这样一个步骤 , 可以使分析结果尽可能达到易于解释且更为合理的目的 因子分析的数学模型 12 36 统计学STATISTICS (第四版 ) 2020105 原始的 p个变量表达为 k个因子的线性组合变量 设 p个原始变量为 , 要寻找的 k个因子 (kp)为 , 主成分和原始变量之间的关系表示为 因子分析的数学模型 pxxx ,, 21kfff ,, 21因子分析的数学模型 系数 aij为第个 i变量与第 k个因子之间的线性相关系数 , 反映变量与因子之间的相关程度 , 也称为载荷(loading)。 由于因子出现在每个原始变量与因子的线性组合中 , 因此也称为公因子。 为特殊因子 , 代表公因子以外的因素影响 pkpkpppkkkkfafafaxfafafaxfafafax221122222121211212111112 37 统计学STATISTICS (第四版 ) 2020105 共同度量 (Communality) 因子的方差贡献率 因子分析的数学模型 (共同度量 Communality和公因子的方差贡献率 ) )21(122 piahkjiji ,, )21(122 kjagpiijj ,, 变量 xi的信息能够被 k个公因子解释的程度 , 用 k个公因子对第 i个变量xi的方差贡献率表示 第 j个公因子对变量 xi的提供的方差总和 , 反映第 j个公因子的相对重要程度 因子分析的步骤 因子分析 12 39 统计学STATISTICS (第四版 ) 2020105 因子分析要求样本的个数要足够多 一般要求样本的个数至少是变量的 5倍以上。 同时 , 样本总数据量理论要求应该在 100以上 用于因子分析的变量必须是相关的 如果原始变量都是独立的 , 意味着每个变量的作用都是不可替代的 , 则无法降维 检验方法 计算各变量之间的相关矩阵 , 观察各相关系数。 若相关矩阵中的大部分相关系数小于 , 则不适合作因子分析 使用 KaiserMeyerOlkin检验 (简称 KMO检验 )和 Bartlett球度检验 (Bartlett’s test of sphericity)来判断 (SPSS将两种检验统称为 “ KMO and Bartlett’s test of sphericity”) 因子分析的步骤 (数据检验 ) 12 40 统计学STATISTICS (第四版 ) 2020105 Bartlett球度检验 以变量的相关系数矩阵为基础 , 假设相关系数矩阵是单位阵 (对角线元素不为 0, 非对角线元素均为 0)。 如果相关矩阵是单位阵 , 则各变量是独立的 , 无法进行因子分析 KMO检验 用于检验变量间的偏相关性 , KMO统计量的。统计学第四版主成分分析和因子分析(编辑修改稿)
相关推荐
i ,m inijGxGxkl dDljki ,m a x)()(2 lklkkl xxxxD ki liGx Gxijlkkl dnnD1lkmkl WWWD 213 27 统计学STATISTICS (第四版 ) 2020105 Nearest neighbor(最短距离法 )— 用两个类别中各个数据点之间最短的那个距离来表示两个类别之间的距离
) h 雕牌 ( ) ( 3题多项选择法) 评分标准 很好 10分 好 8分 较好 6分 一般 4分 差 2分 请按以上的评分标准给第三题中列出的牙膏质量评定分数,分数填入括号内。 (赋值选择法) 你对我厂生产的中华牌牙膏有什么意见。 ——————————。 (自由回答法) 代表性误差 抽样框误差 回答误差 无回答误差 调查员误差 工作误差 调查误差
798 6 1983 826 7 1984 974 8 1985 1148 13 9 1986 1329 10 1987 1459 11 1988 1747 12 1989 1935 13 1990 2140 14 1991 2340 15 1992 2711 16 1993 3371 17 1994 4538 18 1995 5500 19 1996 6210 20 1997 6470 21
有次品的个数及概率如下表 次品数 X = xi 0 1 2 3 概率 P(X=xi)pi 每 100个配件中的次品数及概率分布 求该供应商次品数的数学期望和标准差 iii px22( ) , ( ) 0 . 7 0 5 1 0 . 8 3 9 7iiiD X x p 167。 连续变量的分布 • 取连续值的变量 , 如高度 、 长度 、重量
定义为 , 统计量 取该值或更极端的值 的概率等于 a。 也就是说 ,“ 统计量的实现值比临界值更极端 ”等价于 “ p值小于 a”。 使用临界值的概念进行的检验不计算 p值。 只比较统计量的取值和临界值的大小。 167。 假设检验的过程和逻辑 • 使用临界值而不是 p值来判断拒绝与否是前计算机时代的产物。 当时计算 p值不易 ,只采用临界值的概念。 但从给定的 a求临界值同样也不容易 ,
的无偏估计时, 方差 越 小,无偏估计越有效。 ˆ 2)ˆ( Eˆ一致性 对于无限总体, 如果对任意 , 0>0)|ˆ(| nn PL im , 则称 是 的一致估计。 充分性 一个估计量如能完全地包含未知参数信息,即为充分量。 估计量 的 ˆ 区间估计 估计未知参数所在的可能的区间。 评价准则 随机区间 置信度 精确度 随机区间