现代统计学分析方法与应用聚类分析(编辑修改稿)内容摘要:

这些数据分成 K个类会导致无意义的聚类。 许多聚类算法都要求给定 K,而选择几种算法进行反复检验,对于结果的分析也许是有好处的。 2020/10/5 中国人民大学六西格玛质量管理研究中心 63 167。 实际例子 目录 上页 下页 返回 结束 例 城镇居民消费水平通常用表 104中的八项指标来描述,八项指标间存在一定的线性相关。 为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际就是对指标聚类。 原始数据列于表。 将原始数据录入 SPSS,并依次点击“ Analyze”→“Correlate” →“Bivariate” ,打开Bivariate Correlations对话框,把八个变量选入Variables栏中,单击“ OK”,得到这八个指标对应的相关系数,列于表 105。 2020/10/5 中国人民大学六西格玛质量管理研究中心 64 167。 实际例子 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 65 167。 实际例子 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 66 167。 实际例子 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 67 167。 实际例子 目录 上页 下页 返回 结束 表 r4,8= ,将 G4和 G8并成一新类 G9,然后计算 G9与各类的相关系数,再找最大的相关系数,每次缩小一类得图 8- 4。 我们可以看出全国城镇居民得消费结构大致可以分为三个方面,一类是各种副食、日用品及交通通信、文化教育和住房等支出,这是在消费结构中起主导作用的方面;其次是居民购买烟、酒、饮料及着装支出;粮食和水电燃料是两项很重要的消费指标,但目前在城镇居民的消费中占的比例较小,可将它们归并为同一类。 2020/10/5 中国人民大学六西格玛质量管理研究中心 68 167。 实际例子 目录 上页 下页 返回 结束 上面介绍的几种系统聚类方法,并类的原则和步骤基本一致,所不同的是类与类的距离有不同的定义。 其实可以把这几种方法统一起来,有利于在计算机上灵活地选择更有意义的谱系图。 2020/10/5 中国人民大学六西格玛质量管理研究中心 69 167。 实际例子 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 70 167。 实际例子 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 71 167。 实际例子 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 72 167。 实际例子 目录 上页 下页 返回 结束 对例 ,我们采用欧氏距离分别用类平均法、最短距离法、最长距离法把 31个省市分类。 类平均法聚类在 SPSS中的操作为:点选“ Analyze”→“Classify” →“Hierarchical Cluster” ,打开Hierarchical Cluster Analysis对话框,将八个聚类指标选入Variables栏中,将表示地区的变量选入 Label Cases By栏中,按“ Plots”按钮,在弹出的窗口中选中 Dendrogram(谱系图)选项,按“ Continue”返回主对话框,在按“ Method”按钮,在 Cluster Method下拉菜单中选择 Betweengroups linkage(组间连接法,即类平均法)选项,返回主对话框后按“ OK”即可得到聚类结果。 最短距离法和最长距离法操作步骤与类平均法一样,只不过要在Cluster Method下拉菜单中分别选择 Nearest Neighbor和Furthest Neighbor选项。 图 101图 101图 1014分别显示了三种方法的分类结果。 为便于对照,将三种方法分类的结果综合列于表 106。 2020/10/5 中国人民大学六西格玛质量管理研究中心 73 167。 实际例子 目录 上页 下页 返回 结束 图 类平均法谱系图 2020/10/5 中国人民大学六西格玛质量管理研究中心 74 167。 实际例子 目录 上页 下页 返回 结束 图 最短距离法谱系图 2020/10/5 中国人民大学六西格玛质量管理研究中心 75 167。 实际例子 目录 上页 下页 返回 结束 图 最长距离法谱系图 2020/10/5 中国人民大学六西格玛质量管理研究中心 76 167。 实际例子 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 77 167。 实际例子 目录 上页 下页 返回 结束 表 106(续) 2020/10/5 中国人民大学六西格玛质量管理研究中心 78 167。 实际例子 目录 上页 下页 返回 结束 直观看出,类平均法分为三类:{ 1, 9, 11, 19}为第一类,{ 13, 2, 22, 10}为第二类,其他为第三类;最短距离法分为两类,{ 1, 9, 11, 19}为一类,其余的省市归为一大类;最长距离法也分为三类:{ 1, 9, 11, 19}为第一类,{ 10, 22, 2,13, 26}为第二类,其余的省市为第三类。 很显然,这三种方法的分类效果是有差异的。 那么究竟采用哪一种分类为好呢。 一种方法是根据分类问题本身的知识来决定取舍。 另一种方法是将几种方法的共性取出来,有争议的样品根据其实际情况再划分。 综合考虑这两点,笔者认为从全国各省、市、区的消费情况来看,分为三类较为合适。 由分类结果可以看出,类平均法和最长距离法的分类结果基本上一致,只是在西藏应该划入第二类还是第三类上存在差异,从表 ,西藏的经济发展和消费水平与始终处在第二类的福建、天津、重庆和江苏有较大差距,因此划入第三类较为合适,即这个聚类分析用类平均法较为合适。 更多的聚类分析方法请参考文献 [16]、 [19]。 2020/10/5 中国人民大学六西格玛质量管理研究中心 79 167。 实际例子 目录 上页 下页 返回 结束 例 10. 5 我们仍以 2020年 31个省、市、自治区的城镇居民月平均消费支出数据为例,在 SPSS中利用 K均值法对 31个省、市、自治区的城镇居民消费水平进行聚类分析。 在 SPSS中依次点击“ Analyze”→“Classify” →“K Means Cluster”,打开 KMeans Cluster Analysis对话框,将 8个变量选入 Variable框中,将表示地区的变量选入 Label Cases By栏中,将分类数( Number of clusters)定为 3。 另外,点击 Iterate按钮可以在其中输入最大迭代次数( Maximum iterations)和收敛标准( Convergence criterion);在 Save按钮中可以选择保存样本的聚类结果( Cluster membership)和各样本距各自中心点的距离( Distance from cluster center);在 Options按钮中可以选择输出初始类中心点、方差分析表等结果,读者可以根据实际情况来选择。 点击“ OK”得到聚类结果如下: 2020/10/5 中国人民大学六西格玛质量管理研究中心 80 167。 实际例子 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 81 167。 实际例子 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 82 167。 实际例子 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 83 167。 实际例子 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 84 167。 实际例子 目录 上页 下页 返回 结束 其中第一个表显示了 3个类的初始类中心情况,可以看出,第一类的各指标值总体上是最优的,往下依次为第二类和第三类。 第二个表展示了 3个类中心点每次迭代的偏移情况,可知第一次迭代 3个类的中心点分别偏移了 , ,直到第三次迭代 3个类的中心点偏移才达到指定判定标准( 0)。 第三个表展示了 3个类的最终类中心情况,总体来看,第一类各指标值仍是最优的。 最后一个表给出了各类中的样品数目,第一类包括 4个地区,第二类包括 6个地区,第三类包括 21个地区。 如果在操作过程中选择了保存样本的聚类结果,可以返回数据表,看到名为 QCL_1的变量,其各值表示对应地区所属的类别:北京、上海、浙江和广东为第一类;天津、江苏、福建、山东、湖南和重庆为第二类;其他为第三类。 2020/10/5 中国人民大学六西格玛质量管理研究中心 85 2020/10/5 中国人民大学六西格玛质量管理研究中心 86 第十一章 判别分析 目录 上页 下页 返回 结束 •167。 判别分析的基本思想 •167。 距离判别 •167。 Bayes判别 •167。 Fisher判别 •167。 逐步判别 •167。 判别分析应用的几个例子 2020/10/5 中国人民大学六西格玛质量管理研究中心 87 第十一章 判别分析 目录 上页 下页 返回 结束 回归模型普及性的基础在于用它去预测和解释度量 (metric)变量。 但是对于非度量 (nonmetric)变量,多元回归不适合解决此类问题。 本章介绍的判别分析来解决被解释变量是非度量变量的情形。 在这种情况下,人们对于预测和解释影响一个对象所属类别的关系感兴趣,比如为什么某人是或者不是消费者,一家公司成功还是破产等。 本章的目的主要有两个:( 1)介绍判别分析的内在性质、基本原理和应用条件;( 2)举例说明这些方法的应用和结果的解释。 判别分析在主要目的是识别一个个体所属类别的情况下有着广泛的应用。 潜在的应用包括预测新产品的成功或失败、决定一个学生是否被录取、按职业兴趣对学生分组、确定某人信用风险的种类、或者预测一个公司是否成功。 在每种情况下,将对象进行分组,并且要求使用这两种方法中的一种可以通过人们选择的解释变量来预测或者解释每个对象的所属类别。 2020/10/5 中国人民大学六西格玛质量管理研究中心 88 167。 判别分析的基本思想 目录 上页 下页 返回 结束 有时会遇到包含属性被解释变量和几个度量解释变量的问题,这时需要选择一种合适的分析方法。 比如,我们希望区分好和差的信用风险。 如果有信用风险的度量指标,就可以使用多元回归。 但我们可能仅能判断某人是在好的或者差的一类,这就不是多元回归分析所要求的度量类型。 当被解释变量是属性变量而解释变量是度量变量时,判别分析是合适的统计分析方法。 在很多情况下,被解释变量包含两组或者两类,比如,雄性与雌性、高与低。 另外,有多于两组的情况,比如低、中、高的分类。 判别分析能够解决两组或者更多组的情况。 当包含两组时,称作两组判别分析。 当包含三组或者三组以上时,称作多组判别分析( Multiple discriminant analysis)。 2020/10/5 中国人民大学六西格玛质量管理研究中心 89 167。 散点图矩阵 目录 上页 下页 返回 结束 判别分析的假设条件 判别分。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。