聚类分析
变划分内容。 一个好的划分衡量标准通常就是同一个组中的对象彼此相近或相 关,而不同组中的对象较远或差距较大。 主要的划分方法有: Kmeans 聚类法和 Kmedoid 聚类法。 Kmeans 聚类法在处理海量数据库方面较有效,特别是对数 南京邮电大学通达学院 2020 届本科生毕业设计 (论文 ) 8 值属性处理,它对异常数据很敏感。 PAM(围绕中心对象进行划分)方法是最初 提出的
7 . 5 5 5 . 9 2 9 1 . 6 7 2 1 . 1 6 2 . 1 4 9 . 1 1 4 1 . 4 9 7 . 9 3 4. 1 9 8 . 0 9 8 . 2 6 7 1 . 0 5 4 . 9 3 6 . 2 2 2 . 0 0 0 . 1 3 7 1 . 0 4 1 1 . 3 5 8 . 3 2 6 . 8 0 5 . 7 0 9 . 6 3 0 1 . 3 5 4
标准 • 通常是 NPHard • 多项式算法 并非精确的最优解,而是相对优的解或者局部的最优解 算法一 • 判断标准: kcenter criterion 最小化任意点到所分的类中心的最大距离 • 基本思想: 存在 k个半径为 r的球体覆盖所有点 存在最大距离为 r的划分 算法一 • 步骤 每次选取一个未被覆盖的 数据 点作为一个类的中心,作半径为 r的球体,覆盖某些点。 重复 k次得到
, , m i n | ,r k r k i j i r j k i j i p j k i j i q j kD G G D d x G x G d x G x G d x G x G m in ( , ) , ( , )p k q kD G G D G G ( 2)基本步骤 STEP01:定义样品之间的距离,计算样品两两之间的距离,得到样本距离矩阵
i ,m inijGxGxkl dDljki ,m a x)()(2 lklkkl xxxxD ki liGx Gxijlkkl dnnD1lkmkl WWWD 213 27 统计学STATISTICS (第四版 ) 2020105 Nearest neighbor(最短距离法 )— 用两个类别中各个数据点之间最短的那个距离来表示两个类别之间的距离
( ) 类间距离的度量 距离作为对样品之间的相似程度的度量是聚类分析的基础。 为了研究问题的方便,分别以 ji, 表示样品 ji xx, ,简记 ),( jiij dd xx 是样品 ji xx, 之间的距离, 设 },{ )()(2)(1 pnppppG xxx 和 },{ )()(2)(1 qnqqqpG xxx 为两个类,含样品数 pn和 qn。 pni pipp n 1
数来分类 , 也不一定全都能够正确划分。 下面就是对我们的训练样本的分类结果 ( SPSS) : C l a s s i f i c a t i o n R e s u l t sb,c30 0 0 300 30 0 300 0 30 301 0 0 . 0 .0 .0 1 0 0 . 0.0 1 0 0 . 0 .0 1 0 0 . 0.0 .0 1 0 0 . 0 1 0 0 . 030
fine”对话框 图 826 “Discriminant Analysis: Stepwise Method”对话框 图 827 “Discriminant Analysis: Statistics”对话框 图 828 “Discriminant Analysis: Classification”对话框 图 829 “Discriminant Analysis: Save”对话框 ( 1)
xx, (9): 4347 [5]汪远征,徐 雅静 .SAS软件与统计应用教程 [M].北京:机械工业出版社, [6]苏鹏程 , 陈治 .全国各地区高等教育发展水平的实证研究 [J].改革与开放 ,20xx, 9: 194195 [7]刘尧 ,刘岩 .我国高等教育发展的现状、问题与趋势 [J].教育与现代化 ,20xx,1: 6370 [8]苏娜