统计学第四版主成分分析和因子分析(编辑修改稿)内容摘要:

数 1个主成分和原来的第一个变量 (人均 GDP)之间的线性相关系数。 这个系数越大 , 说明主成分对该变量的代表性就越大 12 29 统计学STATISTICS (第四版 ) 2020105  根据主成分分析模型和因子载荷 , 可以得到两个主成分与原来 6个变量之间的线性组合表达式如下 怎样解释主成分。 (主成分与原始变量的关系 ) 65432126543211xxxxxxyxxxxxxy注意:表达式中的不是原始变量,而是标准化变量 12 30 统计学STATISTICS (第四版 ) 2020105  载荷图 (Loading Plot)直观显示主成分对原始 6变量的解释情况  图中横轴表示第一个主成分与原始变量间的相关系数;纵轴表示第二个主成分与原始变量之间的相关系数  每一个变量对应的主成分载荷就对应坐标系中的一个点 , 比如 , 人均 GDP变量对应的点是(, )  第一个主成分很充分地解释了原始的 6个变量 (与每个原始变量都有较强的正相关关系 ), 第二个主成分则较好地解释了居民消费水平 、 人均 GDP和年末总人口这 3个变量 (与它们的相关关系较高 ), 而与其他变量的关系则较弱 (相关系数的点靠近坐标轴 ) 怎样解释主成分。 (Loading Plot) 相关系数的点越远离坐标轴 , 主成分对原始变量的代表性就越大。 这 3个点远离主成分 2的坐标 因子分析 因子分析的意义和数学模型 因子分析的步骤 因子分析的应用 第 12 章 主成分分析和因子分析 因子分析的意义和数学模型 因子分析 12 33 统计学STATISTICS (第四版 ) 2020105  由 Charles Spearman于 1904年首次提出的  与主成分分析类似 , 它们都是要找出少数几个新的变量来代替原始变量  不同之处:主成分分析中的主成分个数与原始变量个数是一样的 , 即有几个变量就有几个主成分 , 只不过最后我们确定了少数几个主成分而已。 而因子分析则需要事先确定要找几个成分 , 也称为因子(factor), 然后将原始变量综合为少数的几个因子 ,以再现原始变量与因子之间的关系 , 一般来说 , 因子的个数会远远少于原始变量的个数 什么是因子分析。 (factor analysis) 12 34 统计学STATISTICS (第四版 ) 2020105  因子分析可以看作是主成分分析的推广和扩展 , 但它对问题的研究更深入 、 更细致一些。 实际上 , 主成分分析可以看作是因子分析的一个特例  通过对变量之间关系的研究 , 找出能综合原始变量的少数几个因子 , 使得少数因子能够反映原始变量的绝大部分信息 , 然后根据相关性的大小将原始变量分组 , 使得组内的变量之间相关性较高 , 而不同组的变量之间相关性较低  属于多元统计中处理降维的一种统计方法 , 其目的就是要减少变量的个数 , 用少数因子代表多个原始变量 什么是因子分析。 (factor analysis) 12 35 统计学STATISTICS (第四版 ) 2020105  因变量和因子个数的不一致 , 使得不仅在数学模型上 , 而且在实际求解过程中 , 因子分析和主成分分析都有着一定的区别 , 计算上因子分析更为复杂  因子分析可能存在的一个优点是:在对主成分和原始变量之间的关系进行描述时 , 如果主成分的直观意义比较模糊不易解释 , 主成分分析没有更好的改进方法;因子分析则额外提供了 “ 因子旋转 (factor rotation)”这样一个步骤 , 可以使分析结果尽可能达到易于解释且更为合理的目的 因子分析的数学模型 12 36 统计学STATISTICS (第四版 ) 2020105  原始的 p个变量表达为 k个因子的线性组合变量  设 p个原始变量为 , 要寻找的 k个因子 (kp)为 , 主成分和原始变量之间的关系表示为 因子分析的数学模型 pxxx ,, 21kfff ,, 21因子分析的数学模型 系数 aij为第个 i变量与第 k个因子之间的线性相关系数 , 反映变量与因子之间的相关程度 , 也称为载荷(loading)。 由于因子出现在每个原始变量与因子的线性组合中 , 因此也称为公因子。 为特殊因子 , 代表公因子以外的因素影响 pkpkpppkkkkfafafaxfafafaxfafafax221122222121211212111112 37 统计学STATISTICS (第四版 ) 2020105  共同度量 (Communality)  因子的方差贡献率 因子分析的数学模型 (共同度量 Communality和公因子的方差贡献率 ) )21(122 piahkjiji ,,  )21(122 kjagpiijj ,,  变量 xi的信息能够被 k个公因子解释的程度 , 用 k个公因子对第 i个变量xi的方差贡献率表示 第 j个公因子对变量 xi的提供的方差总和 , 反映第 j个公因子的相对重要程度 因子分析的步骤 因子分析 12 39 统计学STATISTICS (第四版 ) 2020105  因子分析要求样本的个数要足够多  一般要求样本的个数至少是变量的 5倍以上。 同时 , 样本总数据量理论要求应该在 100以上  用于因子分析的变量必须是相关的  如果原始变量都是独立的 , 意味着每个变量的作用都是不可替代的 , 则无法降维  检验方法  计算各变量之间的相关矩阵 , 观察各相关系数。 若相关矩阵中的大部分相关系数小于 , 则不适合作因子分析  使用 KaiserMeyerOlkin检验 (简称 KMO检验 )和 Bartlett球度检验 (Bartlett’s test of sphericity)来判断 (SPSS将两种检验统称为 “ KMO and Bartlett’s test of sphericity”) 因子分析的步骤 (数据检验 ) 12 40 统计学STATISTICS (第四版 ) 2020105  Bartlett球度检验  以变量的相关系数矩阵为基础 , 假设相关系数矩阵是单位阵 (对角线元素不为 0, 非对角线元素均为 0)。 如果相关矩阵是单位阵 , 则各变量是独立的 , 无法进行因子分析  KMO检验  用于检验变量间的偏相关性 , KMO统计量的。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。