统计学聚类分析(编辑修改稿)内容摘要:
数来分类 , 也不一定全都能够正确划分。 下面就是对我们的训练样本的分类结果 ( SPSS) : C l a s s i f i c a t i o n R e s u l t sb,c30 0 0 300 30 0 300 0 30 301 0 0 . 0 .0 .0 1 0 0 . 0.0 1 0 0 . 0 .0 1 0 0 . 0.0 .0 1 0 0 . 0 1 0 0 . 030 0 0 300 30 0 300 0 30 301 0 0 . 0 .0 .0 1 0 0 . 0.0 1 0 0 . 0 .0 1 0 0 . 0.0 .0 1 0 0 . 0 1 0 0 . 0G R O U P1 . 0 02 . 0 03 . 0 01 . 0 02 . 0 03 . 0 01 . 0 02 . 0 03 . 0 01 . 0 02 . 0 03 . 0 0C o u n t%C o u n t%O r i g i n a lC r o s s v a l i d a t e da1 . 0 0 2 . 0 0 3 . 0 0P r e d i c t e d G r o u p M e m b e r s h i pT o t a lC r o s s v a l i d a t i o n i s d o n e o n l y f o r t h o s e c a s e s i n t h e a n a l y s i s . I n c r o s sv a l i d a t i o n , e a c h c a s e i s c l a s s i f i e d b y t h e f u n c t i o n s d e r i v e d f r o m a l lc a s e s o t h e r t h a n t h a t c a s e .a . 1 0 0 . 0 % o f o r i g i n a l g r o u p e d c a s e s c o r r e c t l y c l a s s i f i e d .b . 1 0 0 . 0 % o f c r o s s v a l i d a t e d g r o u p e d c a s e s c o r r e c t l y c l a s s i f i e d .c . 误判和正确判别率 从该表看,我们的分类能够 100%地把训练数据的每一个观测值分到其本来的类。 该表分成两部分;上面一半( Original)是用从全部数据得到的判别函数来判断每一个点的结果(前面三行为判断结果的数目,而后三行为相应的百分比)。 下面一半( Cross validated)是对每一个观测值,都用缺少该观测的全部数据得到的判别函数来判断的结果。 这里结果是 100%正确,但一般并不一定。 如果就用这个数据 , 但不用所有的变量 , 而 只用 4个变量 进行判别:企业规模 ( is) 、 服务 (se)、 雇员工资比例 (sa)、 资金周转速度 (cs)。 结果的图形和判别的正确与否就不一样了。 下图为两个典则判别函数导出的 150个企业的二维点图。 它不如前面的图那么容易分清楚了 C an o n i c al D i s c r i mi n an t F u n c t i o n sF u n ct io n 1864202468Function 232101234G R O U PG r o u p Ce n t r o id s321321C an o n i c al D i s c r i mi n an t F u n c t i o n sF u n ct io n 1100 1 0Function 243210123G R O U PG r o u p Ce n t r o id s321321原先的图 下面是基于 4个变量时分类结果表: • 这个表的结果是有 87个点 ( %) 得到正确划分 , 有3个点被错误判别;其中第二类有两个被误判为第一类 ,有一个被误判为第三类。 C l a s s i f i c a t i o n R e s u l t sb,c30 0 0 302 27 1 300 0 30 301 0 0 . 0 .0 .0 1 0 0 . 06 . 7 9 0 . 0 3 . 3 1 0 0 . 0.0 .0 1 0 0 . 0 1 0 0 . 030 0 0 302 27 1 300 0 30 301 0 0 . 0 .0 .0 1 0 0 . 06 . 7 9 0 . 0 3 . 3 1 0 0 . 0.0 .0 1 0 0 . 0 1 0 0 . 0G R O U P1 . 0 02 . 0 03 . 0 01 . 0 02 . 0 03 . 0 01 . 0 02 . 0 03 . 0 01 . 0 02 . 0 03 . 0 0C o u n t%C o u n t%O r i g i n a lC r o s s v a l i d a t e da1 . 0 0 2 . 0 0 3 . 0 0P r e d i c t e d G r o u p M e m b e r s h i pT o t a lC r o s s v a l i d a t i o n i s d o n e o n l y f o r t h o s e c a s e s i n t h e a n a l y s i s . I n c r o s sv a l i d a t i o n , e a c h c a s e i s c l a s s i f i e d b y t h e f u n c t i o n s d e r i v e d f r o m a l lc a s e s o t h e r t h a n t h a t c a s e .a . 9 6 . 7 % o f o r i g i n a l g r o u p e d c a s e s c o r r e c t l y c l a s s i f i e d .b . 9 6 . 7 % o f c r o s s v a l i d a t e d g r o u p e d c a s e s c o r r e c t l y c l a s s i f i e d .c .。 训练样本中必须包含所有要判别的类型,分类必须清楚,不能有混杂。 要选择好可能用于判别的预测变量。 这是最重要的。 当然,在应用中,选择余地不见得有多大。 要注意数据是否有不寻常的点或者模式存在。 还要看预测变量中是否有些不适宜的;这可以用单变量方差分析( ANOVA)和相关分析来验证。 判别分析要注意什么。 判别分析是为了正确地分类,但同时也要注意使用尽可能少的预测变量来达到这个目的。 使用较少的变量意味着节省资源和易于对结果作解释。 在计算中需要看关于各个类的有关变量的均值是否显著不同的 检验结果 (在 SPSS选项中选择 Wilks’ Lambda、Rao’s V、 The Squared Mahalanobis Distance或The Sum of Unexplained Variations等检验的计算机输出 ),以确定是否分类结果仅由于随机因素。 判别分析要注意什么。 此外成员的权数( SPSS用 prior probability,即“先验概率”,和贝叶斯统计的先验概率有区别)需要考虑;一般来说,加权要按照各类观测值的多少,观测值少的就要按照比例多加权。 对于多个判别函数,要弄清各自的重要性。 注意训练样本的正确和错误分类率。 研究被误分类的观测值,看是否能找出原因。 SPSS选项 打开。 然后点击 Analyze- Classify-Discriminant, 把 group放入 Grouping Variable,再定义范围,即在Define Range输入 1- 3的范围。 然后在 Independents输入所有想用的变量;但如果要用逐步判别,则不选 Enter independents together,而选择 Use stepwise method, 在方法( Method)中选挑选变量的准则(检验方法;默认值为 Wilks’ Lambda)。 为了输出 Fisher分类函数的结果可以在 Statistics中的Function Coefficient选 Fisher和 Unstandardized ,在Matrices中选择输出所需要的相关阵; 还可以在 Classify中的 Display选 summary table, Leaveoneout classification;注意在 Classify选项中默认的Prior Probability为 All groups equal表示所有的类都平等对待,而另一个选项为 Compute from group sizes,即按照类的大小加权。 在 Plots可选 Combinedgroups, Territorial map等。 附录 费歇 (Fisher)判别法 并未要求总体分布类型 工作原理就是对原数据系统进行坐标变换 ,寻求能够将总体尽可能分开的方向 . 点 x在以 a为法方向的投影为a’x 各组数据的投影为 ( ) ( )1: 39。 39。 , 1 , ...,iiiinG a x a x i k将 Gm组中数据投影的均值记为 有 记 k组数据投影的总均值为 有 ( ) ( )1139。 39。 , 1 , . . . ,mnmmiima x a x m kn ()39。 max39。 ax()11139。 39。 mnkmimia x a xn 组间离差平方和为 : ( ) 21( ) ( )1( 39。 39。 )39。 [ ( ) ( ) 39。 ] 39。 kmmmkmmmmS S G n a x a xa n x x x x a a Ba 这里 ( ) ( )1( ) ( ) 39。 ]k mmmmB n x x x x 组内离差平方和为 : ( ) ( ) 211( ) ( ) ( ) ( )11( 39。 39。 )39。 [ ( ) ( ) 39。 ] 39。 mmnkmmiminkm m m miimiS S E a x a xa x x x x a a Ea ( ) ( ) ( ) ( )11( ) ( ) 39。 mnk m m m miimiE x x x x 这里 注 :L=|E|/|B+E|为有 Wilks分布的检验零假设H0:m(1)=…= m(k)的似然比统计量 . Wilks分布常用 c2分布近似 (Bartlett) 希望寻找 a使得 SSG尽可能大而 SSE尽可能小 ,即 39。 ( ) m a x39。 a B aaa E a 记方程 |BlE|=0的全部特征根为 l1 ≥ …≥ lr0, 相应的特征向量为 v1,…,v r. (a)的大小可以估计判别函数 yi(x)=vi’x (= a’x)的效果 . 记 pi为判别能力 (效率 ), 有 最大的值为方程 |BlE|=0的最大特征根 l1. 1ii rhhpll使 39。 39。 a Baa Eam个判别函数的判别能力定义为 111mimii rihhpll据此来确定选择多少判别函数。 再看逐步判别法。 判别分析 (Discriminant Analysis) 和聚类分析的关系 判别分析和聚类分析都是分类 . 但判别分析是在已知对象有若干类型和一批已知样品的观测数据后的基础上根据某些准则建立判别式 . 而做聚类分析时类型并不知道 . 可以先聚类以得知类型 ,再进行判别 . 距离判。统计学聚类分析(编辑修改稿)
相关推荐
份和缺项等情 况,应及时催报、补报;如有不正确之处,则应分 别不同情况作如下处理: 对于可以肯定的一般错误,应及时代为更正, 并通知原报单位。 对于可疑之数或无法代为更正的错误,应要求 原单位复查更正。 如果所发现的差错在其他单位也可能发生时, 应将错误情况通报所有单位,以免发生类似错误。 对于严重的错误,应发还重新填报,并查明发生 错误的原因,若属于违法行为,则应依法严肃处理。 32 二
矩 换接起动时 ,Y起动电流 Y起动转矩 (2)当负载为 30% 时 , 30% = = 由 故可使用 起动 3. 一台并励直流电动机 ,在某一负载时转速为 1000转 /分 ,电枢电流为 40A,电枢回路总电阻为, 电网电压为 110伏 ,当负载增大到原来的 4倍时 ,求电枢电流和转速是多少 ?(不计空载转矩 )。 解: 1000439。 439。 4 4 40 16039。 39。 102
17 绩效计划的制定程序 一、准备阶段 准备必要的信息 绩效计划通常是通过管理人员与 员工双向沟通得到的,那么,为了使绩效计划沟通取得预期的效果,事先必须准备好相应的信息: ( 1)关于组织的信息。 为了使员工的绩效计划能够与组织的目标结合在一起,在进行绩效计划沟通之前,管理人员和员工都需要重新回顾组织的目标,保证在绩效计划正式沟通之前双方都已经熟悉了组织的目标。 ( 2)关于团队的信息。
1 ( 1 ) ( 2 )ˆ( ) ( ) 39。 ( )W x x x x x S 非线性判别函数 :当 S(1) ≠S(2)时 2221( 2 ) ( 2 ) 1 ( 2 ) ( 1 ) ( 1 ) 1 ( 1 )( , ) ( , )( ) 39。 ( ) ( ) ( ) 39。 ( ) ( )D x G D x Gx x x xm m m m S
, 0 ( , , , ) , ( , , , )nnX ~ NX X X Xx x x 设总体并设 为来自总体 的样本为样本值。 一、均值的检验 二、方差的检验 山东财政学院 1 . 均值 的检验0 0 1 0( ) : :。 A H H 0 0 1 0( ) : :。 B H H 0 0 1 0( ) : : .C
Q-处理水量, 1100 3/mh; a-混凝剂最大投加量, 30mg/L; c-溶液浓度,取 5%; n-每日调制次数,取 n= 3。 代入数据得: W2= 35417 301100 m= 溶液池设置两个 , 每个容积为 2W ,以便交替使用,保证连续投药。 取有效水深 H1= , 总深 H= H1+H2+H3 (式中 H2为保护高,取 ; H3为 贮渣深度,取 ) 则 H= ++=。