统计学聚类分析(编辑修改稿)内容摘要:

数来分类 , 也不一定全都能够正确划分。 下面就是对我们的训练样本的分类结果 ( SPSS) : C l a s s i f i c a t i o n R e s u l t sb,c30 0 0 300 30 0 300 0 30 301 0 0 . 0 .0 .0 1 0 0 . 0.0 1 0 0 . 0 .0 1 0 0 . 0.0 .0 1 0 0 . 0 1 0 0 . 030 0 0 300 30 0 300 0 30 301 0 0 . 0 .0 .0 1 0 0 . 0.0 1 0 0 . 0 .0 1 0 0 . 0.0 .0 1 0 0 . 0 1 0 0 . 0G R O U P1 . 0 02 . 0 03 . 0 01 . 0 02 . 0 03 . 0 01 . 0 02 . 0 03 . 0 01 . 0 02 . 0 03 . 0 0C o u n t%C o u n t%O r i g i n a lC r o s s v a l i d a t e da1 . 0 0 2 . 0 0 3 . 0 0P r e d i c t e d G r o u p M e m b e r s h i pT o t a lC r o s s v a l i d a t i o n i s d o n e o n l y f o r t h o s e c a s e s i n t h e a n a l y s i s . I n c r o s sv a l i d a t i o n , e a c h c a s e i s c l a s s i f i e d b y t h e f u n c t i o n s d e r i v e d f r o m a l lc a s e s o t h e r t h a n t h a t c a s e .a . 1 0 0 . 0 % o f o r i g i n a l g r o u p e d c a s e s c o r r e c t l y c l a s s i f i e d .b . 1 0 0 . 0 % o f c r o s s v a l i d a t e d g r o u p e d c a s e s c o r r e c t l y c l a s s i f i e d .c . 误判和正确判别率 从该表看,我们的分类能够 100%地把训练数据的每一个观测值分到其本来的类。 该表分成两部分;上面一半( Original)是用从全部数据得到的判别函数来判断每一个点的结果(前面三行为判断结果的数目,而后三行为相应的百分比)。 下面一半( Cross validated)是对每一个观测值,都用缺少该观测的全部数据得到的判别函数来判断的结果。 这里结果是 100%正确,但一般并不一定。  如果就用这个数据 , 但不用所有的变量 , 而 只用 4个变量 进行判别:企业规模 ( is) 、 服务 (se)、 雇员工资比例 (sa)、 资金周转速度 (cs)。 结果的图形和判别的正确与否就不一样了。 下图为两个典则判别函数导出的 150个企业的二维点图。 它不如前面的图那么容易分清楚了 C an o n i c al D i s c r i mi n an t F u n c t i o n sF u n ct io n 1864202468Function 232101234G R O U PG r o u p Ce n t r o id s321321C an o n i c al D i s c r i mi n an t F u n c t i o n sF u n ct io n 1100 1 0Function 243210123G R O U PG r o u p Ce n t r o id s321321原先的图 下面是基于 4个变量时分类结果表: • 这个表的结果是有 87个点 ( %) 得到正确划分 , 有3个点被错误判别;其中第二类有两个被误判为第一类 ,有一个被误判为第三类。 C l a s s i f i c a t i o n R e s u l t sb,c30 0 0 302 27 1 300 0 30 301 0 0 . 0 .0 .0 1 0 0 . 06 . 7 9 0 . 0 3 . 3 1 0 0 . 0.0 .0 1 0 0 . 0 1 0 0 . 030 0 0 302 27 1 300 0 30 301 0 0 . 0 .0 .0 1 0 0 . 06 . 7 9 0 . 0 3 . 3 1 0 0 . 0.0 .0 1 0 0 . 0 1 0 0 . 0G R O U P1 . 0 02 . 0 03 . 0 01 . 0 02 . 0 03 . 0 01 . 0 02 . 0 03 . 0 01 . 0 02 . 0 03 . 0 0C o u n t%C o u n t%O r i g i n a lC r o s s v a l i d a t e da1 . 0 0 2 . 0 0 3 . 0 0P r e d i c t e d G r o u p M e m b e r s h i pT o t a lC r o s s v a l i d a t i o n i s d o n e o n l y f o r t h o s e c a s e s i n t h e a n a l y s i s . I n c r o s sv a l i d a t i o n , e a c h c a s e i s c l a s s i f i e d b y t h e f u n c t i o n s d e r i v e d f r o m a l lc a s e s o t h e r t h a n t h a t c a s e .a . 9 6 . 7 % o f o r i g i n a l g r o u p e d c a s e s c o r r e c t l y c l a s s i f i e d .b . 9 6 . 7 % o f c r o s s v a l i d a t e d g r o u p e d c a s e s c o r r e c t l y c l a s s i f i e d .c .。 训练样本中必须包含所有要判别的类型,分类必须清楚,不能有混杂。 要选择好可能用于判别的预测变量。 这是最重要的。 当然,在应用中,选择余地不见得有多大。 要注意数据是否有不寻常的点或者模式存在。 还要看预测变量中是否有些不适宜的;这可以用单变量方差分析( ANOVA)和相关分析来验证。 判别分析要注意什么。 判别分析是为了正确地分类,但同时也要注意使用尽可能少的预测变量来达到这个目的。 使用较少的变量意味着节省资源和易于对结果作解释。 在计算中需要看关于各个类的有关变量的均值是否显著不同的 检验结果 (在 SPSS选项中选择 Wilks’ Lambda、Rao’s V、 The Squared Mahalanobis Distance或The Sum of Unexplained Variations等检验的计算机输出 ),以确定是否分类结果仅由于随机因素。 判别分析要注意什么。 此外成员的权数( SPSS用 prior probability,即“先验概率”,和贝叶斯统计的先验概率有区别)需要考虑;一般来说,加权要按照各类观测值的多少,观测值少的就要按照比例多加权。 对于多个判别函数,要弄清各自的重要性。 注意训练样本的正确和错误分类率。 研究被误分类的观测值,看是否能找出原因。 SPSS选项  打开。 然后点击 Analyze- Classify-Discriminant,  把 group放入 Grouping Variable,再定义范围,即在Define Range输入 1- 3的范围。 然后在 Independents输入所有想用的变量;但如果要用逐步判别,则不选 Enter independents together,而选择 Use stepwise method,  在方法( Method)中选挑选变量的准则(检验方法;默认值为 Wilks’ Lambda)。  为了输出 Fisher分类函数的结果可以在 Statistics中的Function Coefficient选 Fisher和 Unstandardized ,在Matrices中选择输出所需要的相关阵;  还可以在 Classify中的 Display选 summary table, Leaveoneout classification;注意在 Classify选项中默认的Prior Probability为 All groups equal表示所有的类都平等对待,而另一个选项为 Compute from group sizes,即按照类的大小加权。  在 Plots可选 Combinedgroups, Territorial map等。 附录 费歇 (Fisher)判别法 并未要求总体分布类型 工作原理就是对原数据系统进行坐标变换 ,寻求能够将总体尽可能分开的方向 . 点 x在以 a为法方向的投影为a’x 各组数据的投影为 ( ) ( )1: 39。 39。 , 1 , ...,iiiinG a x a x i k将 Gm组中数据投影的均值记为 有 记 k组数据投影的总均值为 有 ( ) ( )1139。 39。 , 1 , . . . ,mnmmiima x a x m kn ()39。 max39。 ax()11139。 39。 mnkmimia x a xn  组间离差平方和为 : ( ) 21( ) ( )1( 39。 39。 )39。 [ ( ) ( ) 39。 ] 39。 kmmmkmmmmS S G n a x a xa n x x x x a a Ba   这里 ( ) ( )1( ) ( ) 39。 ]k mmmmB n x x x x   组内离差平方和为 : ( ) ( ) 211( ) ( ) ( ) ( )11( 39。 39。 )39。 [ ( ) ( ) 39。 ] 39。 mmnkmmiminkm m m miimiS S E a x a xa x x x x a a Ea   ( ) ( ) ( ) ( )11( ) ( ) 39。 mnk m m m miimiE x x x x  这里 注 :L=|E|/|B+E|为有 Wilks分布的检验零假设H0:m(1)=…= m(k)的似然比统计量 . Wilks分布常用 c2分布近似 (Bartlett) 希望寻找 a使得 SSG尽可能大而 SSE尽可能小 ,即 39。 ( ) m a x39。 a B aaa E a  记方程 |BlE|=0的全部特征根为 l1 ≥ …≥ lr0, 相应的特征向量为 v1,…,v r. (a)的大小可以估计判别函数 yi(x)=vi’x (= a’x)的效果 . 记 pi为判别能力 (效率 ), 有 最大的值为方程 |BlE|=0的最大特征根 l1. 1ii rhhpll使 39。 39。 a Baa Eam个判别函数的判别能力定义为 111mimii rihhpll据此来确定选择多少判别函数。 再看逐步判别法。 判别分析 (Discriminant Analysis) 和聚类分析的关系 判别分析和聚类分析都是分类 . 但判别分析是在已知对象有若干类型和一批已知样品的观测数据后的基础上根据某些准则建立判别式 . 而做聚类分析时类型并不知道 . 可以先聚类以得知类型 ,再进行判别 . 距离判。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。