多元统计分析课件聚类分析(编辑修改稿)内容摘要:

是说分 G类是合适的。 但是,分类越多,每个类的类内的离差平方和就越小, 也就越大;所以我们只能取合适的 G,使得 足够大,而 G本生很小,随着 G的增加, 的增幅不大。 比如,假定分 4类时, =;下一次合并分三类时,下降了许多, =,则分 4 类是合适的。 TPR G 122RGP2R2R2R2R2R伪 F统计量的定义为 伪 F统计量用于评价聚为 G类的效果。 如果聚类的效果好,类间的离差平方和相对于类内的离差平方和大,所以应该取伪 F统计量较大而类数较小的聚类水平。 )()1()(GnPGPTFGG伪 统计量的定义为 其中 和 分别是的类内离差平方和, 是将 K和 L合并为第 M类的离差平方和 = 为合并导致的类内离差平方和的增量。 用它 评价合并第 K和 L类的效果,伪 统计量大说 明不应该合并这两类,应该取合并前的水平。 )2()(2 LKLKKLNNWWBtKLB MW LW KWKWLW2t第八章 因子分析 第一节 什么是因子分析及基本思想 因子分析是主成分分析的推广 , 它也是一种把多个变量化为少数几个综合变量的多元统计分析方法。 目前因子分析在 心理学 、 社会学 、 经济学 、 人口学 、 地质学 、 生理学 、化学 、 物理学中 都取得了成功的应用 例如考虑人的五个生理指标: X1:收缩压 , X2:舒张压 , X3:心跳间隔 , X4:呼吸间隔 , X5:舌下温度 从生理学的知识知道 , 这五个指标是 受植物神经支配的 , 植物神经分为交感神经与副交感神经 ,因此至少有两个公共的因素对它们有影响。 如果用 F1 、 F2分别表示 交感神经 与 副交感神经 ,称为 公因子 , 那么可以设想 X X X X X5是F1 、 F2的线性函数 , 即 i=1,2,… ,5 iiii FaFaX  2211即 用矩阵表示 或 X=AF+ε 5252151542421414323213132222121212121111FaFaXFaFaXFaFaXFaFaXFaFaX52121522212512111521 FFaaaaaaXXX5252151542421414323213132222121212121111FaFaXFaFaXFaFaXFaFaXFaFaX这里 是其它对 有影响的因子 , 通常是指公共因子以外的因子称为 特殊因子。 只对 有影响。 通常假定 i iXi iX),0(~ 2ii N 注意这里 X是已知的, F是未知的。 与回归模型是不同的。 或 X=AF+ε 因子分析就是要估计出 A, 求出因子模型 , 因子分析有 R型因子分析 和 Q型因子分析。 R型因子分析是对 变量 作因子分析; Q型因子分析是对 样品 作因子分析 这里以 R型因子分析为例。 Q型类似。 X=AF+ε 第二节 因子分析的数学模型 数学模型(也称正交 因子模型 ) 一般地 R型因子分析的 数学模型: 用矩阵表示 : pmpmpppmmmmFaFaFaXFaFaFaXFaFaFaX2211222221212112121111pmpmppmmp FFFaaaaaaaaaXXX212121222211121121简记为 )1()1()()1( pmmppFAX 满足此假定的 因子模型 称为 正交因子模型。 方差不同之间不相关即之间不相关且方差皆为即是不相关的和即,DFFIFD)FFC o vEFEpmppmmF1221100)(1)(4,0),()30)(,0)()2)1且满足: 这里 是原始变量 , 是公共因子 , 也就是说 F对每个 Xi都起作用 , ε 称为特殊因子 , ε i只对 起作用。 A称为 因子载荷矩阵 , 其中元素 称为 因子载荷 , 是原变量 在公因子 上的负荷。 ),( 21  pXXXX ),( 21  mFFFF iXijaiX jF FAXpmpmppmmp FFFaaaaaaaaaXXX212121222211121121或 由 E(F)=0, E(ε)= 0, 知 E(X)=0 假定 X的每一个分量的方差都是 1, Var(Xi)=1, 即 Xi为标准化变量 X=AF+ε ),(21  pXXXX pmppmmaaaaaaaaaA212222111211(1) 因子载荷 aij的统计意义 ijjijmimjjijjijijijijmimjjijjijijijimimjijiiiaFEFFEaFFEaFFEaFFEaFXEFFFaFFaFFaFFaFXFFaFaFaFaX)()()()()()(221122112211于是得:两端右乘0),( ji FFE ji 1)(),(  jjj FV arFFE0),( ji FE ijjijijiFX aFXEFV arXV arFXrji1),()()(),c ov (因子载荷矩阵的统计意义 即 是原变量 与公共因子 的相关系数,即 依赖 的程度(比重), 因此用统计学的术语叫 “ 权 ” ,心理学家叫它“ 载荷 ” ,表示第 i个变量在第 j个公共因子上的负荷。 ijaiX jFiX jFimimjijiii FaFaFaFaX  2211ijjijijiFX aFXEFV arXV arFXrji1),()()(),c ov ((2) 变量共同度的统计意义 将下式两边求方差 , 即 记 称为变量共同度 , 是因子载荷矩阵A中第 i行元素的平方和 ,是所有公共因子对 的方差贡献 每一个 表示相应 对 的方差贡献。 反映了特殊因子对 的方差贡献 , 叫特殊因子方差。 则 2222222122221212211)()()()()(iiiimiiimimiiiimimiiihaaaVa rFVa raFVa raFVa raXVa rFaFaFaX2212 imii aah  iX2iiX 2i1)( 22  iii hXV a r 2ija jF iXpmppimiimaaaaaaaaaA212111211说明变量 的方差由两部分组成:第一部分 为变量共同度 , 它反映了全部公因子对变量 的总方差所作的贡献 , 第二部分 为特殊因子方差。 若 则说明变量 的几乎全部信息都被所选取的公因子说明了。 若 则说明 几乎全部信息都由特殊因子解释公因子对 起的作用很小。 由此可见 , 反映了变量 对公因子 F的依赖程度 iX2ih iX2 1ih  iX2iho iXiX2ihiX2i22)( iii hXV a r 1)( 22  iii hXV a r ( 3) 公因子 的方差贡献的统计意义 考虑指定的一个公因子 , 对各变量 的影响 , 由 A 中第 j列的元素平方和来描述。 令 j=1, 2, … , p 称 为公因子 对 X的贡献。 表示公因子 对每一个 变量 所提供的方差贡献总和。 很明显 , 的值越大 , 反映了 对 X的影响越大 , 所以 是衡量公因子重要性的一个尺度 ,一个指标。 jFjFjFiXpiijpjjjj aaaaS1222221 jS jFjF iXjS jFjSpmpjpmjmjaaaaaaaaaA122211111总结上述讨论 , 我们得到 矩阵 A中元素的统计意 义 如下: ( 1) 是原变量 与公因子 的相关系数 ( 2) = 是公因子 F对 的方差贡献 , 也是 变量 对公因子 F的依赖程度 ( 3) 是公因子 对 X的方差贡献, 是衡量公因子重要性的一个指标。 ija iX jF2ih mjija12 iXpiijj aS12 jFiXpmppmmaaaaaaaaaA212222111211 ( 1) 每一个 是原变量 与公共因子 的相关系数 ( 2) 每一行元素的平方和 = 是所有公因子 对 的方差总贡献 ( 3) 每一列元素的平方和 是公因子。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。