高级计量经济学线性回归模型扩展(编辑修改稿)内容摘要:
估计向量为 ,那么非线性最小二乘估计的残差平方和为 以 在初始值 处的二阶泰勒级数逼近替代 展 开,即 其中 1( , , )P β1ˆ ˆ ˆ( , , )p β( ) [ ( , ) ] [ ( , ) ]S f f β YX β YX β()Sβ0ˆ()Sβ002ˆ0 0 0ˆ1ˆ ˆ ˆ( ) ( ) ( ) ( ) ( )2SfS S S β ββ ββ β β β β β ββ β0ˆ()β β 1 1 0 0ˆ ˆ( ( ) , , ( ) )pp f β 1( , , )pff ( ) 最小二乘函数 的梯度向量为 = 对( )式,关于 求导,得到 ( ) 其中 是 在 处的二阶导数矩阵,为海塞( Hessian)矩阵,即 ()Sβ0ˆS β ββ01( , , )pSS β ββ000ˆˆ ˆ( ) ( )SS β β h β β ββ β0()hβ ()Sβ 0ˆ002221120ˆ 2221 ˆ()pppSSSSS β ββ βh ββ β令( )式为 0,并解出 ,得到 的第一个值,记为 ,即 ( ) 继续上述的程序, 的第 n个值可以表示为 ( ) 可以发现,牛顿 — 拉夫森法的迭代运算,相当于在前一个参数估计向量的基础上,按单位移动幅度(通常称为“步长”)搜索更好的参数估计值,因此牛顿 — 拉夫森法也是一种搜索法。 牛顿 — 拉夫森法的优点是搜索方向和步长的确定比较科学,因此找到满足精度要求最优水平的搜索次数一般要小一些。 β β1ˆβ011 0 0ˆˆ ˆ ˆ() dSd β ββ β h β ββ1111ˆˆ ˆ ˆ()nn n ndSd β ββ β h β β 牛顿 — 拉夫森方法的缺点是迭代运算中需要反复计算梯度向量,特别是海塞矩阵的逆矩阵,因此计算工作量很大。 事实上,人们在实际应用中常常并不按照牛顿一拉夫森法进行搜索,而是根据一些简单法则确定搜索的步长,如“双向线性搜索法”就是其中常用的方法之一。 迭代算法的初值和收敛性 上面我们所介绍的泰勒级数展开近似或其他迭代运算,都涉及初始值的选择和迭代收敛性的问题。 用迭代方法进行参数估计时,这两个问题也显得有为重要。 一、初始值问题 理论上在目标函数的性质(凹凸性和连续可微)比较有利时,不管初始值如何选择,非线性优化的迭代运算最终都会收敛到唯一的最优解。 例如,最小二乘函数具备整体严格凸函数的性质,则不管以哪一组初始值出发迭代都会收敛到这个唯一的最优水平。 实际上,最小二乘函数并不一定都能满足整体唯一最优解的条件。 在这种情况下,从不同的初始值出发并不能保证都会收敛到同样的结果。 因此,在利用迭代算法进行非线性回归参数估计时,初始值的选择是一个值得重视的问题,如果我们想要得到较好的结果和提高工作效率,必须认真对待参数估计值的选择。 但参数初始值的选择并没有一般法则。 尽量接近参数真实值或最终估计值,最好是参数真实值的一致估计,是正确的初始值选择原则。 但该原则的实用价值不大,因为参数真实值不可能知道,而一致估计量正是我们要求出的最小二乘估计量。 在实践中,人们常常运用的是如下的经验方法。 1、利用参数的经济意义。 一般经济回归模型的参数都有比较明确的经济意义,它们通常的取值范围可以作为选择参数初始值的参考。 例如,柯布-道格拉斯生产函数模型 中 , 的取值,就可以根据它们分别是资本和劳动的产出弹性的意义,利用现实经济中这两个弹性所处的水平基本情况来确定并设置初始值。 321 Q K L ε 23 模型函数在特定点的性质。 非线性模型的函数及其导函数在原点或者其他特定点的形态和水平,常常也能帮助选择参数初始值。 例如,对函数 , X=10时 ,当 时函数有渐近线 (设 )。 可以根据这些特定函数值或函数性质所隐含的模型参数取值范围或数值等,确定非线性回归迭代运算的参数初始值。 3 ( 1 0 )12( , ) XY g X e 12Y x 1Y 3 0 降维法。 所谓降维法,就是根据某些先验的信息和经验,先令模型中的某个参数取特定数值,从而得到可以进行线性回归的线性模型,然后把对其进行线性回归得到的其他参数估计值,加上前述某参数的特定值,一起作为非线性回归的初始值。 例如,对消费函数: 式中, Y是总收入, C是消费,,是该模型的三个参数, 相当于“边际消费倾向”, 则可理解为“消费的收入弹性”。 CY ε 当参数 时,上述非线性模型就退化为一个线性模型: 对这个线性模型进行回归,得到 , 的参数估计值 和 , 然后把 , , 作为原非线性模型参数估计迭代运算的一组初始值。 这种方法称为“降维法”,因为令原模型的一个参数 使得模型的未知参数数量减少了一个。 1 CY ε ˆ ˆ 0 ˆ 0 ˆ0 1 1这里我们需要说明的是,由于初始值选择不当可能会导致迭代运算收敛的困难,而且在最小二乘函数非整体凹函数时可能会收敛于局部而非整体最优解,并且理论上也没有选择好的参数初始值和避免上述问题的一般方法,因此从几组不同的初始值出发,重复进行迭代运算进行相互印证和验算,可能是避免导致失误的重要方法。 如果从某组参数初始值出发无法得到收敛的结果,或者从不同的初始值出发得到的收敛值不同,那么一方面可能是我们选择的算法有问题,不适合所分析的模型,此时可考虑改用其他方法估计参数;另一方面则可能是模型本身存在问题,即模型不符合数据的情况,此时就必须改用其他模型。 二、迭代算法的收敛性 非线性优化迭代运算的收敛性也是值得分析的问题,这里我们作简单介绍。 理论上,非线性优化的迭代运算应该在梯度向量等于 0,也就是满足最优化的一阶条件处终止。 但实际上这通常做不到,因为函数和导数的计算都由累积的舍入误差,而且理论上要实现真正的最优往往需要多次,甚至无穷次反复迭代。 因此,迭代算法一般是以某种收敛标准作为终止迭代的信号,而不是真正满足一阶条件。 判断收敛和终止迭代并没有一致接受的共同标准。 常用的标准主要有: 第一,目标函数(最小二乘函数)的改进已小于给定的小正数,即 , 即任意小正数; 第二,参数值的变化小于给定的小正数。 当模型只有一个参数时即 ; 第三,梯度向量的模小于给定的小正数,即。 这些标准都有合理性,也可替代使用。 但问题是,这些不同标准相互之间没有明显的优劣关系,在不同情况下的使用情况也不同。 一般来说,同时用这几个标准加以判断是比较有利的。 1| ( ) ( ) |iiSS β β 1ii β β1()i g β高斯-牛顿法、牛顿-拉夫森法和其他各种非线性回归参数估计方法,都包含迭代搜索过程。 这些迭代搜索法并没有严格的优劣关系,有些方法可能收敛要好一些,收敛速度较快,但另一些方法则计算量较小。 有时候一种算法不收敛,而另一种算法却能轻易找出最有解,甚至在理论上相当不严密的方法有时候也可能相当有效,而且我们往往无法知道一种方法之所以有效的实际原因,也很难事先知道对于某个具体问题究竟哪种方法最有效。 因此在大多数情况下,尝试不同的迭代搜索方法通常是有价值的。 非线性回归在得到参数估计值和回归方程以后,也必须对回归结果和模型假设的正确性进行评价和判断。 评判非线性回归的基本思路也包括回归拟合度评价,以及模型总体和参数显著性检验等。 非线性模型参数的显著性检验常常隐含模型非线性性的检验。 由于即使非线性回归模型的误差项有好的性质,参数估计量也不具备 BLUE估计等理想性质,因此对非线回归的评价和检验,除了不涉及参数估计量分布性质的决定系数以外,一般要麻烦一些,而且可靠性较差。 一、决定系数 由于反映线性回归模型的决定系数 ( ) 和调整的决定系数 ( ) 其中 p为参数个数。 这里不涉及参数估计量的分布性质,也不需要做以这些分布性质为基础的假设检验,因此非线性导致的问题并不影响该统计量在评价回归方程拟合度方面的作用,仍然是评价非线性模型合理程度的基本指标,或者说最重要的基本指标之一。 它们在非线性回归分析中的使用方法仍然是与在线性回归分析中相同的。 2221iieRY2211 ( 1 )NRRNp 二、 t检验和总体显著性 F检验 一般在线性回归分析中检验参数显著性的标准的检验方法,以及用于评价线性回归总体显著性的F统计量,在非线性回归中都会遇到困难。 因为我们无法利用回归残差得到误差项方差 的无偏估计。 即使非线性模型的误差项 服从 0均值的正态 分布,非线性回归的参数估计量,以及残差: 也不像在线性回归中的参数估计和回归残差那样服从正态分布,因此残差平房和不服从 分布,参数估计量不服从正态分布,所以标准的 t检验和F检验都无法应用。 2ε11 ˆ ˆ( , ,。 , , )i i i K i Pe Y f X X 2这里我们应该注意到,对于参数估计运用高斯-牛顿法的非线性回归,可以把线性回归的 t和 F检验应用到上述迭代过程中的最后一次线性近似( )式。 一般来说,经过反复迭代从而得到的线性化模型应该能提供非线性模型的一个比较好的近似,因此用对最后的线性近似模型的检验替代对非线性模型本身的检验是有合理性的。 事实上,运用线性化方法的非线性估计的计算机程序,通常会计算最后一次线性化的 t统计量、 F统计量等指标。 此外,虽然非线性回归参数估计没有线性回归参数估计的性质,但由参数估计值构造的相似的 t统计量在大样本时,还是渐近服从 t分布的。 因此如果利用上述线性近似最后一次迭代得到的残差标准差作为非线性回归误差项方差的近似,也能利用该统计量进行参数的显著性检验,或者参数取特定值得假设检验。 三、参数显著性的 F检验 除了对高斯-牛顿法非线性回归可以利用最后一次线性近似函数线性回归的 t检验以外,检验非线性模型参数的显著性还有多种其他方法。 下面这个渐近 F分布的统计量就是其中的一种方法,即。高级计量经济学线性回归模型扩展(编辑修改稿)
相关推荐
50%。 购买股票 B,获得收益率 15%和 5%的概率同样都是50%。 可见,这两种股票具有相同的预期收益率:都为 10%。 概率 收益率为 15% 收益率为 5% 预期收益率 股票 A 50% 50% 10% 股票 B 50% 50% 10% (1) 股票价格变化情况 股票 A 和 B 的价格变化不外乎下述三种情况: 第一种情况: 股票 A 和 B 的价格变化方向相反。 股票 A 走高时
图的逻辑关系时,为了借用继电器电路的分析方法,可以想象左右两侧母线之间有一个左正右负的直流电源电压,当图中的触点接通时,有一个假想的 “ 概念电流 ” 或 “ 能流从左到右流动,这一方向与执行用户程序时的逻辑运算的顺序是一致的。 • 3)根据梯形图中各触点的状态和逻辑关系,求出与图中各线圈对应的编程元件的状态,称为梯形图的逻辑解算。 逻辑解算是按梯形图中从上到下、从左到右的顺序进行的。 •
分成若干的组,组与组之间是相互独立的,但组内的选择之间却是相互关联的。 这时,则需要采用嵌套模型来估计各种选择的概率。 例如,一个高中毕业生首先面临两种选择:不上大学和上大学。 在上大学的选择中又存在着上公立学校和私立学样的选择。 也就是说,他面临的是三种选择:不上大学、上公立大学或上私立大学。 后两种选择与第一种选择之间是相互独立的,但是后两者之间却是相关联的。 以下我们就分析这种 M=2,即
则下,投资者必然要使 投资多样化 : 把资金在无风险资产和各种 风险资产之间加以分散,这是最好的选择,是最好的做法。 由于 0 = E[u( *)(Ri )] = (ri ) E[u( *)] + bi i (u( *)),因此 ri = bi i (u( *)) / E[u( *)]。 这表明, bi i (u( *)) /
很大发展,形成了一套丰富的企业理论, 研究企业按照一定价格进行生产的行为。 H. Hotelling首次对企业理论方面的研究成果进行了详细总结。 消费者理论 : 主要研究消费者的行为准则与目的对可见需求的影响。 戈森、杰文斯和瓦尔拉从效用最大化出发,研究了消费者需求,马歇尔对此作出了进一步论述。 E. Slutsky在 1915年研究了需求的性质, J. R. Hicks、 . Allen、
ondition is given by: 100— 2y1— y2=0 and 100— 2y2— y1=0(since firm 1 and 2’s marginal costs are both zero), so we can get the Cournot equilibrium amount of output for each firm as (100/3 100/3)