现代统计学分析方法与应用多变量的图表示法(编辑修改稿)内容摘要:

多变量的图表示法 目录 上页 下页 返回 结束 人们往往会碰到通过划分同种属性的对象很好地解决问题的情形,而不论这些对象是个体、公司、产品甚至行为。 如果没有一种客观的方法,基于在总体内区分群体的战略选择,比如市场细分将不可能。 其他领域也会遇到类似的问题,从自然科学领域(比如为多种动物群体 —昆虫、哺乳动物和爬行动物的区分建立生物分类学)到社会科学领域(比如分析不同精神病的特征)。 所有情况下,研究者都在基于一个多维剖面的观测中寻找某种“自然”结构。 为此最常用的技巧是聚类分析。 聚类分析将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。 目的在于使类间对象的同质性最大化和类与类间对象的异质性最大化。 本章将介绍聚类分析的性质和目的,并且引导研究者使用各种聚类分析方法。 2020/10/5 中国人民大学六西格玛质量管理研究中心 46 167。 聚类分析的基本思想 目录 上页 下页 返回 结束 一、导言 近些年来,统计学的多元分析方法有了迅速的发展,多元分析的技术自然被引用到分类学中,于是从数值分类学中逐渐的分离出聚类分析这个新的分支。 我们认为,所研究的样品或指标(变量)之间是存在着程度不同的相似性(亲疏关系)。 于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另外一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。 最后再把整个分类系统画成一张分群图(又称谱系图),用它把所有的样品(或指标)间的亲疏关系表示出来。 2020/10/5 中国人民大学六西格玛质量管理研究中心 47 167。 聚类分析的基本思想 目录 上页 下页 返回 结束 在经济、社会、人口研究中,存在着大量分类研究、构造分类模式的问题。 例如在经济研究中,为了研究不同地区城镇居民生活中的收入及消费状况,往往需要划分为不同的类型去研究;在人口研究中,需要构造人口生育分类模式、人口死亡分类函数,以此来研究人口的生育和死亡规律。 过去人们主要靠经验和专业知识,作定性分类处理,致使许多分类带有主观性和任意性,不能很好的提示客观事物内在的本质差别和联系,特别是对于多因素、多指标的分类问题,定性分类更难以实现准确分类。 为了克服定性分类时存在的不足,数学这个有用的工具逐渐被引进到分类学中,形成数值分类学。 后来随着多元分析的引进,聚类分析可以用来对案例进行分类,也可以用来对变量进行分类。 对样品的分类常称为 Q型聚类分析,对变量的分类常称为 R型聚类分析。 与多元分析的其他方法相比,聚类分析的方法是很粗糙的,理论上还不完善,但由于它能解决许多实际问题,很受人们的重视,和回归分析、判别分析一起被称为多元分析的三大方法。 2020/10/5 中国人民大学六西格玛质量管理研究中心 48 167。 聚类分析的基本思想 目录 上页 下页 返回 结束 二、聚类的目的 在一些社会、经济问题中,我们面临的往往是比较复杂的研究对象,如果能把相似的样品(或指标)归成类,处理起来就大为方便,所以如前所述,聚类分析的目的就是 把相似的研究对象归成类。 首先来看一个简单的例子。 例 若我们需要将下列 11户城镇居民按户主个人的收入进行分类,对每户作了如下的统计,结果列于表101。 在表中,“标准工资收入” 、“职工奖金” 、“职工津贴” 、“性别” 、“就业身份”等称为指标,每户称为样品。 若对户主进行分类,还可以采用其他指标,如“子女个数” 、“政治面貌” 等,指标如何选择取决于聚类的目的。 2020/10/5 中国人民大学六西格玛质量管理研究中心 49 167。 聚类分析的基本思想 目录 上页 下页 返回 结束 表 某市 2020年城镇居民户主个人收入数据 2020/10/5 中国人民大学六西格玛质量管理研究中心 50 167。 聚类分析的基本思想 目录 上页 下页 返回 结束 在例 8个指标,前 6个是定量的,后 2个是定性的。 如果分得更细一些,指标的类型有三种尺度: ( 1)间隔尺度。 变量用连续的量来表示,如“各种奖金”、“各种津贴”等。 ( 2)有序尺度。 指标用有序的等级来表示,如文化程度分为文盲、小学、中学、中学以上等有次序关系,但没有数量表示。 ( 3)名义尺度。 指标用一些类来表示,这些类之间没有等级关系也没有数量关系,如例 别和职业都是名义尺度。 2020/10/5 中国人民大学六西格玛质量管理研究中心 51 167。 聚类分析的基本思想 目录 上页 下页 返回 结束 不同类型的指标,在聚类分析中,处理的方式是大不一样的。 总的来说,提供给间隔尺度的指标的方法较多,对另两种尺度的变量处理的方法不多。 聚类分析根据实际的需要可能有两个方向,一是对样品(如例 ),一是对指标聚类。 第一位重要的问题是“什么是类”。 粗糙地讲,相似样品(或指标)的集合称作类。 由于经济问题的复杂性,欲给类下一个严格的定义是困难的,在167。 ,我们将给类一些待探讨的定义。 2020/10/5 中国人民大学六西格玛质量管理研究中心 52 167。 聚类分析的基本思想 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 53 167。 聚类分析的基本思想 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 54 167。 聚类分析的基本思想 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 55 167。 相似性度量 目录 上页 下页 返回 结束 从一组复杂数据产生一个相当简单的类结构,必然要求进行“相关性”或“相似性“度量。 在相似性度量的选择中,常常包含许多主观上的考虑,但是最重要的考虑是指标(包括离散的、连续的和二态的)性质或观测的尺度(名义的、次序的、间隔的和比率的)以及有关的知识。 当对样品进行聚类时,“靠近”往往由某种距离来刻画。 另一方面,当对指标聚类时,根据相关系数或某种关联性度量来聚类。 2020/10/5 中国人民大学六西格玛质量管理研究中心 56 167。 相似性度量 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 57 167。 相似性度量 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 58 167。 相似性度量 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 59 167。 相似性度量 目录 上页 下页 返回 结束 ni ,2,1  pj ,2,1 ni ,2,1  pj ,2,1 2020/10/5 中国人民大学六西格玛质量管理研究中心 60 167。 相似性度量 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 61 167。 相似性度量 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 62 167。 相似性度量 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 63 167。 相似性度量 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 64 167。 相似性度量 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 65 167。 相似性度量 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 66 167。 相似性度量 目录 上页 下页 返回 结束 ),( 21 niii xxx  ),( 21 njjj xxx 2020/10/5 中国人民大学六西格玛质量管理研究中心 67 167。 相似性度量 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 68 167。 相似性度量 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 69 167。 类和类的特征 目录 上页 下页 返回 结束 m, xx 12020/10/5 中国人民大学六西格玛质量管理研究中心 70 167。 类和类的特征 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 71 167。 类和类的特征 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 72 167。 类和类的特征 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 73 167。 类和类的特征 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 74 167。 类和类的特征 目录 上页 下页 返回 结束 6),(252423151413 ddddddqpDk类群距离 2020/10/5 中国人民大学六西格玛质量管理研究中心 75 167。 类和类的特征 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 76 167。 类和类的特征 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 77 167。 聚类方法 目录 上页 下页 返回 结束 一、系统聚类法 系统聚类法(hierarchical clustering method)是聚类分析中诸方法中用的最多者。 它包含下列步骤 ,见图 105。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。