spss的多元统计分析(编辑修改稿)内容摘要:

    1111 xnnji a i a jaax x xnn SPSS在聚 类 分析中的 应 用 兰氏( Canberra)距离 它是由 Lance和 Williams最早提出的,故称兰氏距离。 此距离仅适用于一切的情况,这个距离有助于克服各指标之间量纲的影响,但没有考虑指标之间的相关性。 11( ) i, j 1 , , np ia jaija ia jaxxdLp x x0ijx  SPSS在聚 类 分析中的 应 用 ( 2)相似系数 研究样品之间的关系,除了用距离表示外,还有相似系数,顾名思义,相似系数是描写样品之间相似程度的一个量,常用的相似系数有: ● 夹角余弦 将任何两个样品 与 看成 p维空间的两个向量,这两个向量的夹角余弦用 表示。 则 当 ,说明两个样品 与 完全相似; 接近 1,说明 与 相似密切; ,说明 与 完全不一样; 接近 0,说明 与 差别大。 1ij2211c o s 1 c o s 1pia jaaij ppia jaaaxxxx  cos ijiXcosijiX jX cos 0ij iX jXiXjXcos 1ij  cos ijiXiXjXjX SPSS在聚 类 分析中的 应 用 ● 相关系数 通常所说相关系数,一般指变量间的相关系数,作为刻划样品间的相似关系也可类似给出定义,即第 i个样品与第 j个样品之间的相关系数定义为: 其中 聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法等。 本节主要介绍使用较多的快速聚类法和系统聚类法。 12211( ) ( ) 1 1( ) ( )pijia jaaij ijppijia jaaax x x xrrx x x x    1111 ppijia jaaax x x xpp SPSS在聚 类 分析中的 应 用 快速聚 类 法的 SPSS操作 详 解 K均值聚类法又叫快速聚类法,可以用于大量数据进行聚类分析的情形。 它是一种非分层的聚类方法。 这种方法占用内存少、计算量、处理速度快,特别适合大样本的聚类分析。 它的基本操作步骤如下: 指定聚类数目 k,应由用户指定需要聚成多少类,最终也只能输出关于它的唯一解。 这点不同于层次聚类。 确定 k个初始类的中心。 两种方式:一种是用户指定方式,二是根据数据本身结构的中心初步确定每个类别的原始中心点。 根据距离最近原则进行分类。 逐一计算每一记录到各个中心点的距离,把各个记录按照距离最近的原则归入各个类别,并计算新形成类别的中心点 按照新的中心位置,重新计算每一记录距离新的类别中心点的距离,并重新进行归类。 重复步骤 4,直到达到一定的收敛标准。 这种方法也常称为逐步聚类分析,即先把被聚对象进行初始分类,然后逐步调整,得到最终分类。 SPSS在聚 类 分析中的 应 用 Step01:打开对话框 选择菜单栏中的 【 Analyze(分析) 】 → 【 Classify(分类) 】 →【 KMeans Cluster( K均值聚类) 】 命令,弹出 【 KMeans Cluster Analysis( K均值聚类分析) 】 对话框,这是快速聚类分析的主操作窗口。 SPSS在聚 类 分析中的 应 用 Step02:选择聚类分析变量 在 【 KMeans Cluster Analysis( K均值聚类分析) 】 对话框左侧的候选变量列表框中选择进行聚类分析的变量,将其添加至 【 Variables(变量) 】 列表框中。 同时可以选择一个标识变量移入 【 Label Cases by(个案标记依据) 】列表框中。 Step03:确定分类个数 在 【 Number of Clusters(聚类数) 】 列表框中,可以输入确定的聚类分析数目,用户可以根据需要自行修改调整。 系统默认的聚类数为 2. Step04:选择聚类方法 在 【 Method(方法) 】 下拉列表框中可以选择聚类方法。 系统默认值选择【 Iterative and classify(迭代与分类) 】 项。 ● Iterate and classify:选择初始类中心,在迭代过程中不断更新聚类中心。 把观测量分派到与之最近的以类中心为标志的类中去。 ● Classify only:只使用初始类中心对观测量进行分类,聚类中心始终不变。 SPSS在聚 类 分析中的 应 用 Step05:聚类中心的输入与输出 在主对话框中, 【 Cluster Centers(聚类中心) 】 选项组表示输入和输出聚类中心。 用户可以指定外部文件或数据集作为初始聚类中心点,也可以将聚类分析的聚类中心结果输出到指定文件或数据集中。 ● Read initial:要求使用指定数据文件中的观测量或建立数据集作为初始类中心。 ● Write final as File:要求把聚类结果中的各类中心数据保存到指定的文件或数据集中。 SPSS在聚 类 分析中的 应 用 在主对话框中单击 Iterate(迭代)按钮,打开设置迭代参数的对话框图,这里可以进一步选择迭代参数。 ● Maximum Iterations:输入 KMeans 算法中的迭代次数。 改变后面参数框中的数字,则改变迭代次数。 当达到限定的迭代次数上限时,即使没有满足收敛判据,迭代也停止。 系统默认值为 10。 选择范围为 1999。 ● Convergence Criterion:指定 KMeans 算法中的收敛标准,输入一个不超过 1的正数作为判定迭代收敛的标准。 系统缺省的收敛标准是 ,表示当两次迭代计算的最小的类中心的变化距离小于初始类中心距离的百分之 2%时迭代停止。 提示:如果设置了以上两个参数,只要在迭代过程中满足了一个参数,迭代就停止。 ● Use running means:使用移动平均。 选中该复选框,限定在每个观测量被分配到一类后立刻计算新的类中心。 如果不选择此项,则在完成了所有观测量的一次分配后再计算各类的类中心,这样可以节省迭代时间。 SPSS在聚 类 分析中的 应 用 Step07:输出聚类结果 在主对话框中单击 【 Save(保存) 】 按钮,弹出 【 Save New Variables(保存新变量) 】 对话框,它用于选择保存新变量。 ● Cluster membership:在当前数据文件中建立一个名为“ qcl_1” 新变量。 其值表示聚类结果,即各观测量被分配到哪一类。 它的取值为 3„ 的序号。 ● Distance from cluster center:在当前数据文件中建立一个名为“ qcl_2” 新变量。 其值为各观测量与所属类中心之间的欧氏距离。 SPSS在聚 类 分析中的 应 用 Step08:其他选项输出 在主对话框中单击 【 Option(选项) 】 按钮,弹出 【 Option(选项) 】 对话框,它用于指定要计算的统计量和对带有缺失值的观测量的处理方式。 具体见图 : ① 【 Statistics(统计量) 】 选项组:选择输出统计量。 ● Initial cluster centers:初始聚类中心。 ● ANOVA table:方差分析表。 ● Cluster information for each case:显示每个观测量的聚类信息。 ② 【 Missing Values(缺失值) 】 选项组:选择处理缺失值方法。 ● Exclude cases listwise:分析变量中带有缺失值的观测量都不参与后续分析。 ● Exclude cases pairwise:成对剔除带有缺失值的观测量。 Step09:单击 【 OK】 按钮,结束操作, SPSS软件自动输出结果。 SPSS在聚 类 分析中的 应 用 • 实 例分析: 全国环境污染程度分析 为了更深入了解我国环境的污染程度状况,现利用 2020年数据对全国 31个省、自治区、直辖市进行聚类分析。 SPSS在聚 类 分析中的 应 用 现在要分析我国各个地区的环境污染程度,案例中选择了各地区 “ 工业废气排放总量 ” 、 “ 工业废水排放总量 ” 和 “ 二氧化硫排放总量 ” 三个指标来反映不同污染程度的环境状况,同时选择了北京等省市的数据加以研究。 这个问题属于典型的多元分析问题,需要利用多个指标来分析各省市之间环境污染程度的差异。 因此,可以考虑利用快速聚类分析来研究各省市之间的差异性,具体操作步骤如下。 • 打随书光盘中的数据文件 ,选择菜单栏中的 【 Analyze(分析) 】 → 【 Classify(分类) 】 → 【 KMeans Cluster( K均值聚类) 】 命令,弹出 【 KMeans Cluster Analysis( K均值聚类分析) 】 对话框。 • 在左侧的候选变量列表框中将 X X2和 X3变量设定为聚类分析变量,将其添加至 【 Variables(变量) 】 列表框中;同时选择 Y作为标识变量,将其移入 【 Label Cases by(个案标记依据) 】 列表框中。 • 在 【 Number of Clusters(聚类数) 】 文本框中输入数值 “ 3”,表示将样品利用聚类分析分为三类,如下图所示。 • 单击 【 Save(保存) 】 按钮,弹出 【 KMeans Cluster Analysis: Save( K均值聚类分析:保存) 】 对话框;勾选 【 Cluster membership(聚类新成员) 】 和 【 Distance from cluster center(与聚类中心的距离) 】 复选框,表示输出样品的聚类类别及距离,其他选项保持系统默认设置,如下图所示,单击 【 Continue(继续) 】按钮返回主对话框。 • 单击 【 Options(选项) 】 按钮,弹出 【 KMeans Cluster Analysis: Options( K均值聚类分析:选项 】 对话框;勾选 【 Statistics(统计量) 】 选项组中的复选框,其他选项保持系统默认设置,如下图所示,单击 【 Continue(继续) 】 按钮返回主对话框,单击 【 OK(确定) 】按钮完成操作。 SPSS在聚 类 分析中的 应 用 实 例 结 果及分析 ( 1)快速聚类分析的初始中心 SPSS软件首先给出了进行快速聚类分析的初始中心数据。 由于这里是要求将样品分为三类,因此软件给出了三个中心位置。 但是,这些中心位置可能在后续的迭代计算中出现调整。 快速聚类分析的初始中心 SPSS在聚 类 分析中的 应 用 ( 2)迭代历史表 下表显示了快速聚类分析的迭代过程。 可以看到,第一次迭代的变化值最大,其后随之减少。 最后第三次迭代时,聚类中心就不再变化了。 这说明,本次快速聚类的迭代过程速度很快。 迭代历史表 SPSS在聚 类 分析中的 应 用 ( 3)聚类分析结果列表 通过快速聚类分析的最终结果列表可以看到整个样品被分为以下三大类。 • 第一类:北京、天津、山西、内蒙古等 20个地区。 这些地区工业废水、废气及二氧化硫的排放总量相对最低。 • 第二类:河北、福建、河南、湖北、湖南、广西和四川。 它们的污染程度在所有省份中位居中等水平。 • 第三类:江苏、浙江、山东和广东。 这些地区的工业废水、废气及二氧化硫排放总量是最高的,因此环境污染也最为严重。 表中最后一列显示了样品和所属类别中心的聚类,此表中的最后两列分别作为新变量保存于当前的工作文件中。 SPSS在聚 类 分析中的 应 用 ( 4)最终聚类分析中心表 如下表所示列出了最终聚类分析中心。 可以看到,最后的中心位置较初始中心位置发生了较大的变化。 最终聚类分析。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。