生物统计与田间试验直线回归和相关(编辑修改稿)内容摘要:

直线回归方程的矩阵解法  一个直线回归的样本线性方程 (98)可改写为: x  2x y  2y xyxy  n 对观察值可按 (924)写成 n 个等式:  若定义: jjj exbby  10nnnexbbyexbbyexbby102210211101 (925) (924)  X为系数矩阵或结构矩阵。 则 (925)可写成矩阵形式: nyyy21 Ynxxx21 11 1Xneee21 e10 bbbnnneeebbxxxyyy21102121 11 1 即 : Y=Xb+e (926)  要使 (926)中的 b成为回归统计数,必须满足 为最小。  故由  解得: )()( XbYXbYee Q022)2()()(XbXYXbXbXbYXbYYbXbYXbYbQ 0 XbXYX  即  因此 b= (927)  其中: 为 ( )的逆矩阵。 的元素用 cij表示,在统计上又称 cij为 高斯乘数(Gauss multiplier)。  (二 ) 直线回归假设测验的矩阵解法  用矩阵方法可以求得 b向量的方差为: YXXbX )()( 1 YXXX  1)(  XX XX  1)(  XX  因而 b的显著性测验可表示为 :  这一 t 值的自由度为。 bi=b0时即为回归截距的测验; bi=b1时即为回归系数的测验。 222 ˆˆˆˆ101100xybbbbbb s/1)()(  XXbV)1)(1(/ iixyicsbt2 n(930) (929)  在计算 (930)中离回归的标准误 时要用到 Q,其矩阵计算式为: (931)  总平方和 SSy 及回归平方和 U 的矩阵计算式为: xys /YX bYYee )ˆ( 2   yyQ  /)( 22QSSnUnnyySSyy/)(/)(22Y1YX bY1YY( 932)  ( 932) 中的 1为由 n个 1组成的列向量: 111 1n 1第三节 直线相关  一、相关系数和决定系数  二、相关系数的假设测验 一、相关系数和决定系数  (一)相关系数  (X, Y )总体没有相关,则落在象限 Ⅰ 、 Ⅱ 、 Ⅲ 、 Ⅳ 的点是均匀分散的,因而正负相消, = 0。  N YX YX1 ))((   当 (X, Y )总体呈正相关时,落在象限 Ⅰ 、 Ⅲ 的点一定比落在象限 Ⅱ 、 Ⅳ 的多,故 一定为正;同时落在象限 Ⅰ 、 Ⅲ 的点所占的比率愈大,此正值也愈大。  N YX YX1 )(  )(  当 (X, Y )总体呈负相关时,则落在象限 Ⅱ 、 Ⅳ 的点一定比落在象限 Ⅰ 、 Ⅲ 的为多,故 一定为负;且落在象限 Ⅱ 、 Ⅳ 的点所占的比率愈大,此负值的绝对值也愈大。  N YX YX1 ))((   的值可用来度量两个变数直线相关的相关程度和性质。 但是, X 和 Y 的变异程度、所取单位及 N的大小都会影响其大小。  这些因素的影响是可以消去的。 方法就是将离均差转换成以各自的标准差为单位,使成为标准化离差,再以 N 除之。  可定义双变数总体的相关系数为:  N YX YX1))((  ( 933)  (933)的已与两个变数的变异程度、单位和 N大小都没有关系,是一个不带单位的纯数,因而可用来比较不同双变数总体的相关程度和性质。  相关系数 是两个变数标准化离差的乘积之和的平均数。    NYYXX YXN 11   22 )()())((YXYXYXYX 样本的相关系数 r (934)  因为: 在回归分析时分成了两个部分:一部分是离回归平方和 Q ,另一部分是回归平方和 U =(SP)2/SSx。  因此,又可有定义: yx SSSSSPyyxxyyxxr   22 )()())((  2)( yySS y  2)ˆ( yy  2)ˆ( yyyxyxy SSSSSPSSSSSPyyyySSUr   /)()()ˆ( 222 r 的取值区间是 [1, 1]。 双变数的相关程度决定于 |r|, |r|越接近于 1,相关越密切;越接近于 0,越可能无相关。  r 的显著与否还和自由度有关, 越大,受抽样误差的影响越小, r 达到显著水平的值就较小。 正的 r 值表示正相关,负的 r 值表示负相关。 而相关系数 r的正或负和回归系数 b是保持一致。 (二 ) 决定系数  决定系数 (determination coefficient)定义为由 x不同而引起的 y 的平方和 占 y总平方和 SSy= 的比率;也可定义为由 y不同而引起的 x 的平方和 占 x总平方和 SSx= 的比率,其值为: ( 935) 2ˆ  )( yyU  2)( yy  2ˆ )( xxU  2)( xxxyyxSSSSSPSSSSSPr /)(/)( 222 yx SSSSSP2)( 所以决定系数即相关系数 r 的平方值。  决定系数和相关系数的 区别 在于: ① 除掉 |r |=1和 0的情况外, r2总是小于 |r |。 这就可以防止对相关系数所表示的相关程度作夸张的解释。 例如, r =,只是说明由 x 的不同而引起的 y 变异 (或由 y 的不同而引起的 x 变异 )平方和仅占 y 总变异 (或 x 总变异 )  平方和的 r2 =,即 25%,而不是 50%。  ② r 是可正可负的,而 r2则一律取正值,其取值区间为 [0, 1]。 因此,在相关分析由 r 的正或负表示相关的性质,由 r2 的大小表示相关的程度。  (三 ) 相关系数和决定系数的计算 二、相关系数的假设测验  (一 ) 的假设测验  测验一个样本相关系数 r 所来自的总体相关系数是否为 0,所作的假设为 H0: 对 HA: ≠ 0。  在的总体中抽样, r的分布随样本容量 n的不同而不同。  r的抽样误差: 00 21nrsr2(936)  当 时:  或 (937)  此 t 值遵循 的 t分布,由之可测验 H0:。  对于同一资料,线性回归的显著性等价于线性相关的显著性。  将 (937)移项,即可得到自由度和显著水平一定时的临界 r 值: 0 rsrt 21 rnr 22 n0  (二 ) 的假设测验  测验一个实得的相关系数 r与某一指定的或理论的相关系数 C是否有显著差异,其统计假设为 H0: 对 HA: ≠ C。 r22 ttCC= ( 938)  在 ≠ 0时, r 的抽样分布具有很大的偏态 (图 )且随 n 和 的取值而异,类似 (937)的转换已不再能由 t分布逼近。  可将 r转换为 z值:  ||1||1ln 11ln<0 )(  21或   >0 )( 21    rrrzrrrz(939)。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。