现代统计学分析方法与应用聚类分析(编辑修改稿)内容摘要:
这些数据分成 K个类会导致无意义的聚类。 许多聚类算法都要求给定 K,而选择几种算法进行反复检验,对于结果的分析也许是有好处的。 2020/10/5 中国人民大学六西格玛质量管理研究中心 63 167。 实际例子 目录 上页 下页 返回 结束 例 城镇居民消费水平通常用表 104中的八项指标来描述,八项指标间存在一定的线性相关。 为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际就是对指标聚类。 原始数据列于表。 将原始数据录入 SPSS,并依次点击“ Analyze”→“Correlate” →“Bivariate” ,打开Bivariate Correlations对话框,把八个变量选入Variables栏中,单击“ OK”,得到这八个指标对应的相关系数,列于表 105。 2020/10/5 中国人民大学六西格玛质量管理研究中心 64 167。 实际例子 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 65 167。 实际例子 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 66 167。 实际例子 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 67 167。 实际例子 目录 上页 下页 返回 结束 表 r4,8= ,将 G4和 G8并成一新类 G9,然后计算 G9与各类的相关系数,再找最大的相关系数,每次缩小一类得图 8- 4。 我们可以看出全国城镇居民得消费结构大致可以分为三个方面,一类是各种副食、日用品及交通通信、文化教育和住房等支出,这是在消费结构中起主导作用的方面;其次是居民购买烟、酒、饮料及着装支出;粮食和水电燃料是两项很重要的消费指标,但目前在城镇居民的消费中占的比例较小,可将它们归并为同一类。 2020/10/5 中国人民大学六西格玛质量管理研究中心 68 167。 实际例子 目录 上页 下页 返回 结束 上面介绍的几种系统聚类方法,并类的原则和步骤基本一致,所不同的是类与类的距离有不同的定义。 其实可以把这几种方法统一起来,有利于在计算机上灵活地选择更有意义的谱系图。 2020/10/5 中国人民大学六西格玛质量管理研究中心 69 167。 实际例子 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 70 167。 实际例子 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 71 167。 实际例子 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 72 167。 实际例子 目录 上页 下页 返回 结束 对例 ,我们采用欧氏距离分别用类平均法、最短距离法、最长距离法把 31个省市分类。 类平均法聚类在 SPSS中的操作为:点选“ Analyze”→“Classify” →“Hierarchical Cluster” ,打开Hierarchical Cluster Analysis对话框,将八个聚类指标选入Variables栏中,将表示地区的变量选入 Label Cases By栏中,按“ Plots”按钮,在弹出的窗口中选中 Dendrogram(谱系图)选项,按“ Continue”返回主对话框,在按“ Method”按钮,在 Cluster Method下拉菜单中选择 Betweengroups linkage(组间连接法,即类平均法)选项,返回主对话框后按“ OK”即可得到聚类结果。 最短距离法和最长距离法操作步骤与类平均法一样,只不过要在Cluster Method下拉菜单中分别选择 Nearest Neighbor和Furthest Neighbor选项。 图 101图 101图 1014分别显示了三种方法的分类结果。 为便于对照,将三种方法分类的结果综合列于表 106。 2020/10/5 中国人民大学六西格玛质量管理研究中心 73 167。 实际例子 目录 上页 下页 返回 结束 图 类平均法谱系图 2020/10/5 中国人民大学六西格玛质量管理研究中心 74 167。 实际例子 目录 上页 下页 返回 结束 图 最短距离法谱系图 2020/10/5 中国人民大学六西格玛质量管理研究中心 75 167。 实际例子 目录 上页 下页 返回 结束 图 最长距离法谱系图 2020/10/5 中国人民大学六西格玛质量管理研究中心 76 167。 实际例子 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 77 167。 实际例子 目录 上页 下页 返回 结束 表 106(续) 2020/10/5 中国人民大学六西格玛质量管理研究中心 78 167。 实际例子 目录 上页 下页 返回 结束 直观看出,类平均法分为三类:{ 1, 9, 11, 19}为第一类,{ 13, 2, 22, 10}为第二类,其他为第三类;最短距离法分为两类,{ 1, 9, 11, 19}为一类,其余的省市归为一大类;最长距离法也分为三类:{ 1, 9, 11, 19}为第一类,{ 10, 22, 2,13, 26}为第二类,其余的省市为第三类。 很显然,这三种方法的分类效果是有差异的。 那么究竟采用哪一种分类为好呢。 一种方法是根据分类问题本身的知识来决定取舍。 另一种方法是将几种方法的共性取出来,有争议的样品根据其实际情况再划分。 综合考虑这两点,笔者认为从全国各省、市、区的消费情况来看,分为三类较为合适。 由分类结果可以看出,类平均法和最长距离法的分类结果基本上一致,只是在西藏应该划入第二类还是第三类上存在差异,从表 ,西藏的经济发展和消费水平与始终处在第二类的福建、天津、重庆和江苏有较大差距,因此划入第三类较为合适,即这个聚类分析用类平均法较为合适。 更多的聚类分析方法请参考文献 [16]、 [19]。 2020/10/5 中国人民大学六西格玛质量管理研究中心 79 167。 实际例子 目录 上页 下页 返回 结束 例 10. 5 我们仍以 2020年 31个省、市、自治区的城镇居民月平均消费支出数据为例,在 SPSS中利用 K均值法对 31个省、市、自治区的城镇居民消费水平进行聚类分析。 在 SPSS中依次点击“ Analyze”→“Classify” →“K Means Cluster”,打开 KMeans Cluster Analysis对话框,将 8个变量选入 Variable框中,将表示地区的变量选入 Label Cases By栏中,将分类数( Number of clusters)定为 3。 另外,点击 Iterate按钮可以在其中输入最大迭代次数( Maximum iterations)和收敛标准( Convergence criterion);在 Save按钮中可以选择保存样本的聚类结果( Cluster membership)和各样本距各自中心点的距离( Distance from cluster center);在 Options按钮中可以选择输出初始类中心点、方差分析表等结果,读者可以根据实际情况来选择。 点击“ OK”得到聚类结果如下: 2020/10/5 中国人民大学六西格玛质量管理研究中心 80 167。 实际例子 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 81 167。 实际例子 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 82 167。 实际例子 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 83 167。 实际例子 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 84 167。 实际例子 目录 上页 下页 返回 结束 其中第一个表显示了 3个类的初始类中心情况,可以看出,第一类的各指标值总体上是最优的,往下依次为第二类和第三类。 第二个表展示了 3个类中心点每次迭代的偏移情况,可知第一次迭代 3个类的中心点分别偏移了 , ,直到第三次迭代 3个类的中心点偏移才达到指定判定标准( 0)。 第三个表展示了 3个类的最终类中心情况,总体来看,第一类各指标值仍是最优的。 最后一个表给出了各类中的样品数目,第一类包括 4个地区,第二类包括 6个地区,第三类包括 21个地区。 如果在操作过程中选择了保存样本的聚类结果,可以返回数据表,看到名为 QCL_1的变量,其各值表示对应地区所属的类别:北京、上海、浙江和广东为第一类;天津、江苏、福建、山东、湖南和重庆为第二类;其他为第三类。 2020/10/5 中国人民大学六西格玛质量管理研究中心 85 2020/10/5 中国人民大学六西格玛质量管理研究中心 86 第十一章 判别分析 目录 上页 下页 返回 结束 •167。 判别分析的基本思想 •167。 距离判别 •167。 Bayes判别 •167。 Fisher判别 •167。 逐步判别 •167。 判别分析应用的几个例子 2020/10/5 中国人民大学六西格玛质量管理研究中心 87 第十一章 判别分析 目录 上页 下页 返回 结束 回归模型普及性的基础在于用它去预测和解释度量 (metric)变量。 但是对于非度量 (nonmetric)变量,多元回归不适合解决此类问题。 本章介绍的判别分析来解决被解释变量是非度量变量的情形。 在这种情况下,人们对于预测和解释影响一个对象所属类别的关系感兴趣,比如为什么某人是或者不是消费者,一家公司成功还是破产等。 本章的目的主要有两个:( 1)介绍判别分析的内在性质、基本原理和应用条件;( 2)举例说明这些方法的应用和结果的解释。 判别分析在主要目的是识别一个个体所属类别的情况下有着广泛的应用。 潜在的应用包括预测新产品的成功或失败、决定一个学生是否被录取、按职业兴趣对学生分组、确定某人信用风险的种类、或者预测一个公司是否成功。 在每种情况下,将对象进行分组,并且要求使用这两种方法中的一种可以通过人们选择的解释变量来预测或者解释每个对象的所属类别。 2020/10/5 中国人民大学六西格玛质量管理研究中心 88 167。 判别分析的基本思想 目录 上页 下页 返回 结束 有时会遇到包含属性被解释变量和几个度量解释变量的问题,这时需要选择一种合适的分析方法。 比如,我们希望区分好和差的信用风险。 如果有信用风险的度量指标,就可以使用多元回归。 但我们可能仅能判断某人是在好的或者差的一类,这就不是多元回归分析所要求的度量类型。 当被解释变量是属性变量而解释变量是度量变量时,判别分析是合适的统计分析方法。 在很多情况下,被解释变量包含两组或者两类,比如,雄性与雌性、高与低。 另外,有多于两组的情况,比如低、中、高的分类。 判别分析能够解决两组或者更多组的情况。 当包含两组时,称作两组判别分析。 当包含三组或者三组以上时,称作多组判别分析( Multiple discriminant analysis)。 2020/10/5 中国人民大学六西格玛质量管理研究中心 89 167。 散点图矩阵 目录 上页 下页 返回 结束 判别分析的假设条件 判别分。现代统计学分析方法与应用聚类分析(编辑修改稿)
相关推荐
市场维护情况: • 直营店的标准化陈列状况 • 理货的专业化程度如何 • 公司形象和产品的形象如何 • 当地的广告是否定期、如数地投入 监督经销商的职能完成情况 (下) 执行总公司的全局性促销的状况: • 执行总公司全局性促销情况 • 当地局部促销的执行情况 • 在执行促销中该注意的几个问题 监督经销商的职能完成情况 (下) 当地的售后服务情况 售后服务的设施情况 售后服务的标准情况
面考虑事物。 宽以待人,不计蝇头小利。 三、技能 :对客人服务需求的观察,做到服务在客人开口之前。 :对常客姓名、职务的掌握,做到带姓称号。 :对酒店产品和特色服务的推销,人人都是销售员,全员营销。 技能 :面对突发事件的应变能力。 :如何使团队成员发挥自己的 语言技巧和艺术,得到客人的认可。 :服务时的操作能力,是体现服务的最佳方式。 日常服务 9)提供服务时要严格遵守约定时间,做到不 误时
确立 • 执行力是完成任务的能力。 安全执行力是员工贯彻安全生产意图,完成安全生产既定目标的操作能力。 • 执行力由三个因素组成 – 流程:作业动作流程,包括管理流程和业务流程 – 技能:成员的职业执行技能 – 意愿:员工的工作主动性和工作热情 • 如果找不到执行者,一切执行就是空谈 • 下级完成上级制定的目标和计划是执行,上级知道下级如何实施更是执行 • 安全工作的实践证明
玛质量管理研究中心 62 167。 多元正态分布 定理 20世纪 70年代中期为国家标准部门制定服装标准时有成功的应用,见参考文献 [3]。 在制定服装标准时需抽样进行人体测量,现从某年龄段女子测量取出部分结果如下: 1 2 3 4 55: , , : , : , :( , ) ,X X X X X身 高 : 胸 围 腰 围 上 体 长 臀 围 ,已 知 它 们 遵 从 N 其 中 目录
2020/10/5 中国人民大学六西格玛质量管理研究中心 55 中国人民大学六西格玛质量管理研究中心167。 多元分布的基本概念 二、 分布函数与密度函数 目录 上页 下页 返回 结束 2020/10/5 中国人民大学六西格玛质量管理研究中心 56 中国人民大学六西格玛质量管理研究中心167。 多元分布的基本概念 目录 上页 下页 返回 结束 2020/10/5
获奖经历: 东莞莲城旅游形象代言人 2020《高清丽人》大赛冠军 中山数字电视形象代言人 2020《魅力之星》大赛冠军、 最美体态奖 东莞市慈善会南华女性健康关爱基金慈善大使 亚洲小姐竞选华东及深圳赛区最佳口才奖 拍摄中国平安金融学院宣传片,担任女主角 拍摄生命人寿宣传片,担任女主角 主持经验: 主持广州芭蕾舞团专场演出 主持胡彦斌媒体见面会 主持深圳国际车展捷豹品牌新车发布会