第五章bp网络内容摘要:

着训练次数的增加,训练集的 J t( ) 会减少,测试集的 J t1( )可能不减小或增大,说明泛化 能力减弱。 因此,可取测试集 J1的极小点对应的训练权系,以使网络具有较好的泛化能力。 2020126 北京科技大学 自动化系 付冬梅 35 J 全局极小点 局部极小点 图 2 4 3 局部与全局极小点 ( 8 ) 训练误差网络的训练误差在最后一个样本处最小。 ( 9 ) BP 算法已成 ANN 的重要模型之一多层前馈网的 BP 算法,已成为神经网络的重要模型之一,很多领域得到应用。 在自动控制中,也是用得最多的模型,如在非线性系统辨识、控制及系统故障诊断中的应用。 ( 10 ) BP 算法的不足 ① 由于是非线性优化,就会存在局部极小问题,见图 243。 ② 学习算法的收敛速度慢,且收敛速度与初始权的选择有关。 ③ 网络的结构设计,即隐层及节点数的选择,尚无理论指导。 ④ 新加入的样本会影响到已学好的样本。 2020126 北京科技大学 自动化系 付冬梅 36 56 改进的 BP网络的学习算法 单权值 双权值 标准 BP算法的误差 空间 是 N维空间中一个形状极为复杂的曲面,该曲面上的每个点的 “ 高度 ” 对应于一个误差值,每个点的坐标向量对应着 N个权值 561 问题的描述 2020126 北京科技大学 自动化系 付冬梅 37 56 改进的 BP网络的学习算法 BP网络学习算法 存在的问题  存在平坦区域 影响 误差下降缓慢,影响收敛速度。 原因 误差对权值的梯度变化小--接近于零 由各节点的净输入过大而引起。 分析:激活函数为 Sigmod函数 561 问题的描述 2020126 北京科技大学 自动化系 付冬梅 38 56 改进的 BP网络的学习算法  存在平坦区域的原因分析 权值 修正量 : 输出的导数: ( ) ( )( ) ( ( ) ( ) ) ( )( ( ) ( ) ) ( 1 ( ) ) ( )oohho o hoo o o oo o o oyieek ho kw y i wk d k y o k y o kd k y o k y o k y o k= =   == 221( ) ( )111()( 1 ) ( 1 )( ) ( 1 ( ) )o yiy i y io y i y iooy o k f y ieeey o keey o k y o k==++ ==++=561 问题的描述 2020126 北京科技大学 自动化系 付冬梅 39 对应着误差的某个谷点 对应着误差的平坦区 存在平坦区域的原因分析:  第一种可能是 充分接近  第二种可能是 充分接近 0  么三种可能是 充分接近 1 造成平坦区的原因: 各节点的净输入过大。 56 改进的 BP网络的学习算法 ()oyo k()odk()oyo k()oyo k 1 . 0 0 . 5 yi 0 ()oy o k561 问题的描述 2020126 北京科技大学 自动化系 付冬梅 40 56 改进的 BP网络的学习算法  存在多个极小点  影响 易陷入局部最小点。 原因:  以误差梯度下降为权值调整原则;  误差曲面上可能存在多个梯度为 0的点,多数极小点都是局部极小,即使是全局极小往往也不是唯一的,使之无法辨别极小点的性质  导致的结果: 使得训练经常陷入某个局部极小点而不能自拔,从而使训练无法收敛于给定误差。 561 问题的描述 2020126 北京科技大学 自动化系 付冬梅 41  BP算法缺陷小结 ⑴ 易形成局部极小而得不到全局最优; ⑵ 训练次数多使得学习效率低,收敛速度慢; ⑶ 隐节点的选取缺乏理论指导; ⑷ 训练时学习新样本有遗忘旧样本的趋势。 针对上述问题,国内外已提出不少有效的改进算法,下面将介绍其中几种较常用的方法。 56 改进的 BP网络的学习算法 561 问题的描述 2020126 北京科技大学 自动化系 付冬梅 42  在线学习方式时,网络受后面输入样本的影响较大,严重时,会影响用户要求的训练精度。 为了消除这种样本顺序对结果的影响,可以采用批处理学习方式,即使用一批学习样本产生的总误差来调整权值,用公式表示如下:  解决了因样本输入顺序引起的精度问题和训练的抖动问题。 但是,该算法的收敛速度相对来说还是比较慢的。 39。 p1( ) ( )mi j i j o hkw w k h o k= =  =56 改进的 BP网络的学习算法 562 消除样本输入顺序影响的改进算法 2020126 北京科技大学 自动化系 付冬梅 43 算 法 流程 图 网络初始 化 计 算 输出 层 权 值 调 值 计 算隐含层 权 值 调 值 计 算 全局误差 是 结束 判 断是否 结束。 否 更 新 权 值 56 改进的 BP网络的学习算法 562 消除样本输入顺序影响的改进算法 2020126 北京科技大学 自动化系 付冬梅 44  在反向传播法的基础上在每一个权值(或阈值)的变化上加上一项正比于上一次权值(或阈值)变化量的值,并根据反向传播法来产生新的权值(或阈值)变化  带有附加动量因子的权值调节公式为 :  可以防止的出现即最后一次权值的变化量为 0,有助于使网络从误差曲面的局部极小值中跳出。 但对于大多数实际应用问题,该法训练速度仍然很慢。  MATLAB中的工具函数 traingdm()即对应于附加动量法。 ( 1 ) ( 1 ) f ( ( ) ) ( ( ) ( 1 ) )cck m k m k k + =  + w w w w56 改进的 BP网络的学习算法 563 附加动量的改进算法 2020126 北京科技大学 自动化系 付冬梅 45  采用自适应调整参数的改进算法的基本设想是学习率应根据误差变化而自适应调整,以使权系数调整向误差减小的方向变化,其迭代过程可表示为 :  在很小的情况下,采用自适应调整参数的改进算法仍然存在权值的修正量很小的问题,致使学习率降低。  MATLAB中的工具函数 traingda()即对应于自适应调整参数法。 ( 1 ) ( ) f ( ( ) )k k k+ = w w w56 改进的 BP网络的学习算法 563 采用自适应调整参数的改进算法 2020126 北京科技大学 自动化系 付冬梅 46  BP网络通常采用 Sigmoid隐含层。 当输入的函数很大时,斜率接近于零,这将导致算法中的梯度幅值很小,可能使网络权值的修正过程几乎停顿下来。 弹性方法只取偏导数的符号,而不考虑偏导数的幅值。 其权值修正的迭代过程可表示为 :  在弹性 BP算法中,当训练发生振荡时,权值的变化量将减小;当在几次迭代过程中权值均朝一个方向变化时,权值的变化量将增大。 因此,使用弹性方法的改进算法,其收敛速度要比前几种方法快得多 ( 1 ) ( ) ( ( ) ( 1 ) ) ( f ( ( ) ) )k k k k s i g n k+ = w w w w w56 改进的 BP网络的学习算法 563 使用弹性方法的改进算法 2020126 北京科技大学 自动化系 付冬梅 47  梯度法的缺点是搜索过程收敛速度较慢,牛顿法在搜索方向上比梯度法有改进,它不仅利用了准则函数在搜索点的梯度,而且还利用了它的二次导数,就是说利用了搜索点所能提供的更多信息,使搜索方向能更好地指向最优点。 它的迭代方程为 :  收敛速度比一阶梯度快,但计算又较复杂,比较典型的有 BFGS拟牛顿法和一步正切拟牛顿法。  MATLAB中的工具函数 trainbfg()、 trainoss()即对应拟牛顿法中的 BFGS拟牛顿法和一步正切拟牛顿法。 1( 1 ) ( ) f ( ( ) )k k k + = -w w D w56 改进的 BP网络的学习算法 563 使用拟牛顿法的改进算法 2020126 北京科技大学 自动化系 付冬梅 48  梯度下降法收敛速度较慢,而拟牛顿法计算又较复杂,共轭梯度法则力图避免两者的缺点。 共轭梯度法也是一种改进搜索方向的方法,它是把前一点的梯度乘以适当的系数,加到该点的梯度上,得到新的搜索方向。 其迭代方程为 : ( 1 ) ( ) ( ) ( )k k k S k + = +ww( ) f ( ( ) ) ( 1 ) ( 1 )S k k k S k=  + wv ()k 最 佳 步 22f ( ( ) )( 1 )f ( ( 1 ) )kkk=wvw56 改进的 BP网络的学习算法 567 基于共轭梯度法的改进算法 2020126 北京科技大学 自动化系 付冬梅 49  共轭梯度法比大多数常规的梯度下降法收敛快,并且只需增加很少的存储量和计算量。  对于权值很多的网络,采用共轭梯度法不失为一种较好的选择。  MATLAB中的工具函数 traincgb()、 traincgf()、traincgp()即对应于共轭梯度法。 56 改进的 BP网络的学习算法 567 基于共轭梯度法的改进算法 2020126 北京科技大学 自动化系 付冬梅 50 演示 梯度下降法与改进算法的几何意义  BP算法在多层前馈网络中的应用 56 改进的 BP网络的学。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。