总论文_垃圾减量分类论文(编辑修改稿)内容摘要:

: 11ˆ ˆ( ) ( ) ( ) ( )T T T TE X X X E Y X X X X       1 1 2 1ˆ( ) ( ) ( ) ( ) ( )T T T T TD X X X D Y X X X X X   这说明 ˆ 为  的线性无偏估计。 1ˆ( , ) ( ( ) , ( ) )TTCo v e Co v I H Y X X X Y  1) ( ) ( )TI H D Y X X O   这表明残差 e 与  的最小二乘估计 ˆ 是不相关的,又由于残差平方和 SSE是 e 的函数,故它与 ˆ 也不相关。 在正态假定下不相关与独立等价,因而 SSE与 ˆ 独立。 回归方程的显著性检验 给定因变量 y 与 1x , 2x , … , px 的 n 组观测值,利用前述方法确定线性回归方程是否有意义,还有待于显著性检验。 对多元线性回归方程作显著性检验就是要看自变量 1x , 2x , … , px 从整体上对随机变量 y 是否有明显的影响,即检验假 7 设: 0 1 21:0: 0 , 1 piHH i p        如果 0H 被接受,则表明 y 与 1x , 2x , … , px 之间不存在线性关系。 为了进行检验首先建立方差分析表。 1 .离差平方和的分解 观测值 1y , 2y , … , ny 之所以有差异,是由于下述两个原因引起的,一是 y与 1x , 2x , … , px 之间确有线性关系时,由于 1x , 2x , … , px 取值的不同而引起 ( 1,2,..., )iy i n 值的变化;另一方面是除去 y 与 1x , 2x , … , px 的线性关系以外的因素,如 1x , 2x , … , px 对 y 的非线性影响以及随机因素的影响等。 记 11 n iiyyn   数据的总离差平方和( Total Sum of Squares) 定义如下: 21 ()niiSST y y (7) 总离差平方和反映了数据的波动性的大小。 残差平方和 定义如下: 21 ˆ()niiiSS E y y (8) 残差平方和反映了除去 y 与 1x , 2x , … , px 之间的线性关系以外的因素引起的数据 1y , 2y , … , 22 ( 1)SSE np 的波动。 若 0SSE ,则每个观测值可由线性关系精确拟合, SSE 越大,观测值和线性拟合值间的偏差也越大。 回归平方和( Regression Sum of Squares) 定义如下: 21 ˆ()niiSSR y y (9) 由于可证明 : 11 ˆn ii yyn   故 SSR 反映了线性拟合值与它们的平均值的 总 偏差,即由变量 1x , 2x , … , px 的变化引 起 1y , 2y , … , 22 ( 1)SSE np 的波动。 若 0SSR ,则每一个拟合值均相当,即 ˆiy 不随 1x , 2x , … , px 而变化,这意味着 12 0p     。 利用代数运算和正规方程组 (5)可以证明: 2 2 21 1 1ˆ ˆ( ) ( ) ( )n n ni i i ii i iy y y y y y         即 SST SSR SSE。 因此, SSR 越大,说明由线性回归关系所描述的 1y ,2y , … , 22 ( 1)SSE np 的波动性的比例就越大 , 即 y 与 1x , 2x , … , px 的 8 线性关系就越显著 , 线性模型的拟合效果越好。 另外,通过矩阵运算可以证明 SST、 SSE、 SSR,有如下形式的矩阵表示: 11()()11()T T TnT T T TnT T TS S T Y Y Y J Y Y I J YnnS S E e e Y Y X Y Y I H YS S R X Y Y J Y Y H J Ynn             (10) 其中 J 表示一个元素全为 1 的 n 阶方阵。 对应于 SST 的分解,其自由度也有相应的分解 ( 这里的自由度是指 方差表达式 中独立 变化项的数目 )。 在 SST 中,由于有一个关系式1 ( ) 0nii yy ,即( 1, 2, , )iy y i n 彼此并不是独立变化的,故其自由度为 1n。 可以证明, SSE 的自由度为 1np, SSR 的自由度为 p ,因此对应于 SST 的分解,也有自由度的分解关系 : 1 ( 1)n n p p     (11) 基于以上的 SST 和自由度的分解,可以建立 如下 方差分析表。 方差来源 平方和 自由度 均方差 F值 SSR 1()TY H J Yn p SSRMSR p MSRF MSE SSE ()TY I HY 1np 1SSEMSE np  SST 1()TY I J Yn 1n 检验法 可以用 P 值法 结合 F 统计量 来 检验回归方程的显著性。 统计量 F 的计算公式为: // ( 1 )M S R S S R pF M S E S S E n p  (12) 当 0H 为真时, ~ ( , 1)F F p n p,给定显著性水平  ,查 F 分布表得临界值 ( , 1)F p n p ,计算 F 的观测值 0F ,若 0 ( , 1)F F p n p  ,则接受 0H ,即在显著性水平  之下,认为 y 与 1x , 2x , … , px 的线性关系就不显著;当0 ( , 1)F F p n p  时,这种线性关系是显著的。 利用 P 值法作显著性检验性检验十分方便:这里的 P 值是 0()PF F ,表示第一、第二自由度分别为 p , 1np的 F 变量取值大于 0F 的概率 ( 概率 P 值 的 计算 需要借助 查分布表 )。 对于给定的显著性水平  ,若 p  ,则拒绝 0H ,反之,接受 0H。 如果检验的结果接受原假设 0H , 则 表明 : 与模型的误差相比,自变量对因变量的影响是不重要的 ,此时 有两种可能 的 情况 : 其一是模型的各种误差太大,即使回归自变量对因变 量 y 有一定的影响,但相比于误差也不算大。 对于这种情况,要想办法缩小误差,比如检查是否漏掉了重要的自变量,或检查某些自变量 9 与 y 是否有非线性关系等;其二是自变量对 y 的影响确实很小,这时建立 y 与诸自变量的回归方程没有实际意义。 检验法 在前面的方差分析 中 可以看出 ,在总离差平方和中,若回归平方和占的比例越大,则说明拟合效果越好。 于是,就用回归平方和与总离差平方和的比例作为评判一个 回归模型显著性 的标准,称为样本决定系数( coefficient of determination) (或称为复相关系数 、多元相关系数 ),记为 2R。 2 1SS R SS ER SS T SS T   由 2R 的意义看来,越接近于 1,意味着模型 对原样本的 拟合 程度 越高。 但 如果在模型中增加 自变量, 2R 的值也会随之增加 , 为了防止 由于 引 入更多的 自变量 导致 模型 回归 2R 值增加 ,考虑到 增加自变量必使得自由度减少,于是又定义了引入自由度的修正的复相关系数,记为 2R。 2 1 MSER MST  ( 1)1 ( 1)SS E n pSS T n  在实际应用中, 2R 达到多大才算 通过了 显著性 检验,没有绝对的标准,要看具体情况而定。 模型 显著性 并不是判断模型质量的唯一标准,有时为了追求模型的实际意义,可以在一定程度上放宽对拟合优度的要求。 由上面的定义可知: // ( 1 )M S R S S R pF M S E S S E n p  2 1SS R SS ER SS T SS T   易证明统计量 F 和复相关系数 2R 存在以下关系: 221 1n p RF pR  故采用 F 检验法和 R 检验法检验回归模型的显著性在效果上是等价的。 10 f o r ( b = 0 . 0 , m = 0。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。