统计方法建模内容摘要:

否则加大 , 增大无意义。 令 设 并使 D y D a X a DX a a VaT T T( ) ( ) ( )1   y1Dy1Lagrange1a aDy1m a x11Dyaa T   a Va a aT T( )1aVa aa aT  2 2 01可得方程组 ()的解为 () 以 左乘 ()之两边,得 即 由 ()式可得 () 要使满足 ()的 a非零,应有 1aaaVaTTa   aaVaa TT VaayD T)( 10)(  aIV 0 IV  即入是 的特征根,设 是 的 个特征根,只要取 , 再由 ,求出 V的属于 的特征向量 , 在条件 是唯一的 维特征向量。 于是得 ()   1 2, , , pVpm a x1  },m a x { 21 p aVa 1 1 d1111 aa T p1a11Ty a XV二、主成份分析 一般协方差方阵为非负定,对角线上各阶主子式都大于等于零,即特征值有: 设前 m个都大于零,依次为 ,相应的特征向量为 ,则 ,,即为第一 ,第二 ,…, 第 个主成份,由线性代数知识可知,不同的特征根对应的不同的特征向量线性无关,由于 V是实对称阵,则 ,变换后的各主成份 相互无关。 即对 进行了一次正交变换。 12 0p       1 2   mmaaa , 21  Xay T11 Tay22  Xay Tmm mmaaa , 21 y y y m1 2, , ,x x x p1 2, , , 在实际应用中, V阵往往是未知的,需要用 V的估计 值来代替 ,设有 组观测值 则取 () () 其中 是 的 子样方差, 的子样协方差。 需要求出 的特征值。 V{ , , , }, , , ,x x x np   1 2 1 2 Vn S 11 Sx x x xij p pij i i j jn    ( ) ( )1ii xi  ij i jx x是 ,Vn 由于不同的度量会产生量纲问题,一般建议作如下变换: 用标准变量 代替以 前的 ,即可以运算。 此时的协方差矩阵即相关矩阵 从 R出发,可求主成份。 xx xxx xpp ppp 11 111    , ,   1 2, , , n{ , , , }, , , ,x x x np   1 2 1 2   xij R rij p p xij三、主成份的贡献率 为了尽可能以少数几个主成份 来代替 P个指标 ,那么要决定取多少个主成份才够呢 由于 则可得 是 的方差,可得 亦是 V的全部特征值之和: y y y m1 2, , ,x x x p1 2, , ,C O V XX V ij p p( ) ( )    11 12, , , ppx x x p1 2, , ,  11 22    pp t r V V( )方阵 之迹  1 2    p tr V 由于 , 则令 表明方差 在全部 方差中所占的比重,称 是第 i个主成份的贡献率,显然有 ,不妨取一个阈值为 d(0< d< 1),当 时,即舍去,此时可取 为主成份。 以贡献率来决定它的个数。 D y i mi i i( ) ( ) , , ,    0 1 2 ktr Vii iiim  1i kik k k m1 2  k di y y y k di i1 2 1 1, , , ( )   一、数学模型 二、关于计算中应注意的问题 三、关于误判率及多个总体的判别 167。 判别分析 一、数学模型 根据所研究的个体的观察指标来推断个体所属于何种类型的一种统计分析方法,称为判别分析。 例如某精神病院有精神病患者 256名,诊断结果将它们分成六类 (相当于 6个总体 )设 服从三维联合正态分布 i=1,2,… ,6,其中, 为协方差矩阵,一般这六种类型可分为焦虑状、癔病、精神病、强迫观念型、变态人格、正常,若有如下子样: 子样 子样 … … … … … … 子样 G G G1 2 6, , , Gi~N Vi3 ( , )   i i i i ( , , )1 2 3),(~ 111 VN 111211 , n ),(~ 222 VN  222221 , n ),(~ 666 VN  666261 , n { }xij注意到每个子样 都是三维向量。 现有一个新的精神病患者前来就医,测得三个指标: 1 2 32 . 0 1 . 0 1 . 0 1x x x  试判断该患者病情属于哪一类。 (一 ) 两 点的距离 n设 维空间中有两点 , 则其欧氏距离为 : X x x xT n ( , , , )1 2  Y y y yT n ( , , , )1 2 1221()niiid x y欧() 由于数据的量纲不同,不采用欧氏距离 , 用马氏距离有: 定义 1:设 X,Y是从总体 G中抽取的样品 ,G服从 P维正态分布, , 定 义 X,Y两 点 间 的距离 为马 氏距离: N Vp ( , )1( , ) ( ) ( )Td X Y X Y V X Y  () 定义 2: X与总体 G的距离为 D(X, G)为 112( , ) ( ) ( )( ) ( , , , )TTpD X G X V XEX     () (二 )距离判别法 设有两个协方差相同的正态总体 ,且 G G1 2,1 1 2 2( , ) ( , )PpG N V G N V~ ~对于一个新的样品,要判定它来自哪一个总体,有一个很直观的方法: 计算 12( , ) , ( , )D X G D X G22 1 2 1 2( , ) ( , ) , ,D X G D X G X G X G  则 否 则若 (三 )线 性判 别 函 数 由 2 2 12 1 2 2( , ) ( , ) ( ) ( )TD X G D X G X V X    11 121 1 1 2( ) ( ) 2( ) ( )2TTX V X X V         令 121 ()2  记 112( ) ( ) ( )TW X X V    则有:当 时, 否则 ( ) 0WX 1XG 2XG  1 2, ,V当 为已知时,令 1 12()aV  , 可得: ( ) ( ) ( )TTW X X a a X    () W X( )称 为线性判别函数, a为判别系数 ,因为 1 12()aV  ,即 12Va ,解 线 性方程 组 可得解 12( , , , )T pa a a a此时的判别规则为: 12( ) 0( ) 0TTa X X Ga X X G    X是新的一 个 点 ,将 其代入即可判 别。 () 二、关于计算中应注意的问题 实际上 , 均未知 ,要用样本值的估计公式来计算出   与。 其方法如下 : 设子样 x x xn1 2 1, , ,来自总体 G1,子样 y y y n1 22, , ,来自 G2,可由 X n x Y n yk kknkn 1 11 2 1121,S X X X X x x x xk k T k i kj jknknp pi11111       ( )( ) ( ( )( ) )ppnknkjkjikiTkk yyyyYYYYS    2 21 12 )))((())(((在本 节 的 开头 的例子中 P=3) 得到 V n n S S   1 21 21 2( ))(21 YX () () 判别函数为 )()()( 1 YXVXXW  () 判别系数为 )(1 Y。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。