多元统计分析聚类分析讲义(编辑修改稿)内容摘要:

, , m i n | ,r k r k i j i r j k i j i p j k i j i q j kD G G D d x G x G d x G x G d x G x G          m in ( , ) , ( , )p k q kD G G D G G ( 2)基本步骤 STEP01:定义样品之间的距离,计算样品两两之间的距离,得到样本距离矩阵 (0)D。 初始时,每个样本点自成一类,易见 pq pqDd。 213 1 3 21 2 300( 0 ) 00n n ndD d dd d d STEP02:选择 (0)D 中非对角线最小元素 ① ,不防设为 pq pqDd ,于是将 pG 与 qG 类合并,记为 1n p qG G G  STEP03:计算新类 1nG 与其它类  ,kG k l m 的距离       1 , 1m i n | , m i n m i n | , , m i n | ,n k i j i n j k i j i p j k i j i q j kD d x G x G d x G x G d x G x G         m in ( , ) , ( , )p k q kD G G D G G 将 (0)D 中的第 ,pq行及 ,pq列用上面公式并成一个新行新列,得到的矩阵记为 (1)D。 ① 如果最小的非零元素不止一个时,对应这些最小元素的类可以同时合并。 第 页 7 STEP04:对 (1)D ,重复上述对 (0)D 的 STEP02 和 STEP03 两步得 (2)D。 如此下去,直到所有的元素并成一类为止 ①。 ( 3)例子: P71例 1。 2.最长距离法 ( 1)定义类pG与qG之间的距离为两类最远样本点之间的距离  m a x m a x | ,ipjqp q ij ij i p j qxGD d d x G x G    NOTE: ① 类与类之间的最 长 距离有如下的递推公式,设 rG 为由pG与qG合并所得,则 rG 与其它类( , )kG k pq 的最 长 距离 可由下式递推得到       ( , ) m a x | , m a x m a x | , , m a x | ,r k r k i j i r j k i j i p j k i j i q j kD G G D d x G x G d x G x G d x G x G          m a x ( , ) , ( , )p k q kD G G D G G ②有两点不同:其一,类与类之间距离的定义方法不同;其二,计算新类与其它类距离所用的递推公式不同。 ( 2)基本步骤 基本步骤完全等同于最短距离法。 只是距离是按照最远样本点计算,但聚类仍然按照距离最小的并为一类。 ( 3)例子: P74续 例 1。 3.中间距离法 ( 1)定义类与类之间的距离既不采用两类之间最近的距离,也不采用两类之间最远的距离,而是采用介于两者之间的距离,故称中间距离法。 如果 r p qG G G ,则任一类 kG 与新类 rG 的距离公式为: 2 2 2 21122kr kp kq pqD D D D   1 04   ② NOTE:① 当 14时, krD 为三角形的中线; ② 如果用最短距离法,则 kr kpDD ;如果用最长距离法,则 kr kqDD。 ( 2)基本步骤 基本步骤完全等同于最短距离法。 ( 3)例子: P76续例 1。 4.重心 距离 法 ( 1)定义类与类之间的距离 时,为了体现每类所包含的样品个数 , 给出重心法。 它将两类之间的距离定义两类重心 ③ 之间的距 离。 设 pG 与 qG 合并成新类 rG ,它们分别含有 pn 、 qn 和 ()r r p qn n n n 个样本点,它们的重心分别为: px 、qx 和 rx。 则  1r p p q qrx n x n xn。 设某 一类 kG 的重心为 kx ,则它 与新类 rG 的距离公式为: 2 2 2 2p q p qkr kp kq p qr r r rn n n nD D D Dn n n n   NOTE:①当 pqnn 时, 该方法即为中间距离法 ; ② 递推公式的由来详见 P78。 ① 在实际问题中,一般事先给定分类的数目,或给定阈值 T,要求 类与类之间的距离小于 T。 ② 式中采用平方距离是为了上机的方便,也可以完全不采用平方距离。 ③ 每类的重心就是该类(组)样本点的均值。 易见,单个样本点的重心是自身,两个样本点的重心就是两点边线中点。 Gp Gq Gk Gr Dkq Dkp Dkr 第 页 8 ( 2)基本步骤 基本步骤完全等同于最短距离法。 ( 3)例子: P79续例 1。 5.类平均距离法 ( 1)重心距离法虽然具有一定的代表性,但并未充分利用各样品点所包括的距离信息,为此给出类平均距离法。 类平均法定义两类之间的距离平方为这两类元素两两之间距离平方的平均,即 221i p j qpq ijx G x GpqDdnn   设pG与qG合并成新类 rG ,则任一类 kG 与 rG 之间的距离为 2 2 2 2 2 21 1 1i k j r i k j p j q i k j p i k j qk r ij ij ij ij ijx G x G x G x G x G x G x G x G x Gk r k r k rD d d d d dn n n n n n                                  221 ( , ) ( , )k p k p k q k qkr n n D G G n n D G Gnn 2 2 2 2( , ) ( , )p q p qk p k q k p k qr r r rn n n nD G G D G G D Dn n n n    ( 2)基本步骤 基本步骤完全等同于最短距离法。 ( 3)例 子: P80续例 1。 6.可变类平均距离法 由于类平均法公式中没有反映 pG 与 qG 之间距离 pqD 的影响,所以给出可变类平均法。 ( 1)定义距离:其距离的定义仍为221i p j qpq ijx G x GpqDdnn  。 只是递推公式有所改变。 设 pG 与 qG 合并成新类 rG ,则任一类 kG。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。