第五章自变量的选择内容摘要:

pppppppppxBxxXXxxDxDyxyD )~()ˆ( ppxyDxyD   ][ 11111112 qqqppqpp xDxxCDBxxCDxxBCCDBx   0)()( 1112   qpqp xxBCDxxBC (3) 由于22 )]~([)~()~(pppppp xyExyDxyE   又 : qpqqppppp CBXXXXE 11)(~   )()()]~[()()~(112111pqqqpqppqpqqpqqqpppppxBCxxBCxxyExBCxCBxxCBxxxxyE 22 1 1111 2 11ˆ( ) ( )[ ( ) ( ) ][ ( ) ( ) ]( ) ( ) ( ) 0ppq p q pq p q q q pq p q q q pD y x E y xx C B x D x C B xx C B x x C B xx C B x D x C B x                     注 : 由上述定理说明 , 若全模型为真的而误用选模型ppx ~作为y值的预测的话 , 所得的估计是有偏的 . 但预测方差会有所下降。 而对有偏的估计,一般可用均方差去表明估计的好坏 , 在均方误差的意义下,预测的均方误差也是会下降。 所以删去一些影响不大,但回归系数方差过大的变量(用qqqD ˆ为非负定矩阵来表示) , 对预测精度的提高是 有利的 . 综合以上所述 , 一般我们尽可能使模型的变量少而精 , 要引入对y有显著影响的变量 , 而对y并不很显著的变量要删除 , 这样不仅对估计而且对预测也有利 . 167。 自变量选择准则 若一个多元回归的问题中有t可供选择的自变量,那么所有可能的回归方程有 12 t 个 , 下面给出一些自变量选择的准则,希望能从 12 t 个回归方程中选择一个最合理的方程 . 先给出一些记号: 对全模型,记: SSTSSERXXXXHYHIYSSE 1,)(,)(21 对选模型,记: SSTSSERXXXXHYHIYSSEppppppppp1,)(,)(21 前面已说明对一切p有22pp RRS SES SE ,即全模型的残差平方和总达到最小,而复相关系数总达到最大, 因此残差平方和和复相关系数均不能作为选择变量的准则。 下面从不同的角度给出自变量选择的准则。  从模型拟合角度考虑 . 准则 1 平均残差平方和达到最小 . pnSSE Pp2~ pS S E随p的增加而减少 , 但pn 也随p的增加而减少。 但前面的ix,由于其对y的作用很显著 , 使pS S E减少得 较快 , 能使pnSSEp随的p增加而减少 , 但当ix对y的作用不明显时 , 随差p的增加,pS S E减少的很慢,而pn 1随p的增加继续增加,这就使()PSS E n p随p的增加而增加,取()PSS E n p的最小值所对应的p。 当然相应入选p个变量是所有t个变量是所有自变量中最显著的。 (其显著性由计算t统计量或 F统计量得出)。 准则 2 修正的复相关系数2PR达到最大。 其中2PR的定义为, )1()(12nSSTpnSSER PP pnnR p1)1(1 2 可以证明在0q时,22qpp RR ,故取2pR达到最大的方程为好。  从预测角度考虑。 为了叙述方便,先给出下面记号。 记: nqnpqpqpnxxxxxxxxxX221139。 39。 239。 1 其中 : iqipixxx,ni 2,1 从而有 qqpqqpppXXXXXXXXXX 其中:  39。 ipippp xxXX,39。 iqipqp xxXX , 39。 ipiqpq xxXX ,  39。 iqiqqq xxXX 准则 3 预测偏差的方差pJJ达到最小 2~)(pp pnJJ  前节中已计算 ppxyD ~39。 =2139。 ))(1( pppp xXXx,所以在n个样本点上的预测偏差的平方和为: 39。 39。 1 2( ) ( 1 ( ) )i i p p i p p p i piiD y x x X X x   239。 12)(  iipipppxxXXtrn 2)( pn  2 是未知参数,用2~p作为 2。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。