第三章前馈型神经网络模型内容摘要:

[1,1]、 Wjk(t)∈ [1,1],θj(t)∈ [1,1], θk(t)∈ [1,1]。 (一 ) 前向计算 ②输入一个学习样本( XK,TK) ,其中 K∈ {1,2,…,N}、 N为样本数, XK∈ Rn, TK∈ Rm。 ③计算隐层各节点的输出值: j∈ {1,2,…,n1}   ninijKiijjiijj XWfYWfY1 112 )()( 140 52 ④ 计算输出层节点的输出: k∈ {1,2,…,m} (二 ) 逆向误差修正计算: ⑤输出层节点和隐层节点之间连接权值修正量的计算: k∈ {1,2,…,m} ⑥ 隐层节点和输入层节点间连接权值修正量的计算: ⑦用⑤求出的误差修正量 δk来修正输出层和隐层间连接权值矩阵 Wjk和阈值向量 θk。 例如对节点 k和隐层 j的连接权值 Wjk和节点 k的阈值的修正为: 1123 )(njkjjkk YWfY )1()( 333 kkkKkk YYYT mkjkkjjj WYY122 )1( 140 53 ⑧ 用⑥求出的误差修正量 δj来修正隐层和输入层间连接权值矩阵 Wij和阈值向量 θj。 例如隐层 j和输入层节点 i的连接权值 Wij和节点 j的阈值的修正为: ⑨如果全部学习样本未取完,则返②,否则, ⑩ 计算误差函数 E, 并判断 E是否小于规定的误差上限 ,如果 E小于误差上限 , 则算法结束;否则 , 如果学习次数到算法结束;否则更新学习次数 t = t+1, 返回 ②。 kkkjkjkjkttYtWtW)()1()()1( 2jjjijijijttYtWtW)()1()()1( 1140 54 W和 的初始化 取一学习样本做为输入信号 中间层节点输出的计算 输出层节点输出的计算 输出层节点误差的计算 中间层节点误差的计算 中间层和输出层间权值的更新,输出层节点阈值更新 输入层和中间层间权值的更新,中间层节点阈值更新 全部学习样本取完。 学习次数达到。 误差 E小于误差上限。 学习结束 开始 Y N N Y Y N 图 BP算法程序流程图 140 55 X修正值缓存区初始化 权值和阈值的更新 修正值缓存区更新 对每个学习样本计算误差 全部学习样本取完吗。 Y N 图 一括修正部分程序 流程图 一括修正法对图。 140 56 使用 Memond法修正权值向量和阈值向量时,要考虑到前一次修正量。 如果 (t1)时刻的修正量为 △ W(t1),t时刻计算的修正量为 △ W(t),设 Memond系数为 m,则Memond法对权值的修正量为: △ W (t+1) = △ W(t)+m△ W(t1) 当 t时刻计算的修正量为 △ W(t)和 Memond项 △ W(t1)符号相异时能使本次的修正量 △ W(t)值变小,即能抑制振荡,因而能加快学习过程。 为使本次修正量更接近于前一次的修正方向,应该使 Memond系数不断增加,修改其修正量为: △ W (t+1) = △ W(t)+m(t)△ W(t1) m(t) = △ m + m(t1) 140 57 (b)一括修正法的学习曲线 学习次数 20 60 100 μ0= α= β= 误差总和 416次限制 s函数的输出 ( 304次) 误差总和 误差总和 (c)memond法的学习曲线 学习次数 20 60 100 μ0= α= β= m= 误差总和 55次 (a)逐次修正法的学习曲线 学习 次数 误差总和 20 60 100 μ0= α= β= 误差总和 699次限制 s函数的输出 ( 545次) (d)修正 memond法的学习曲线 学习次数 误差总和 20 60 100 μ0= α= β= m= Δ m= 误差总和 21次 图 各种修正权值 方法 的比较 140 58 参数 u0 Memond法 m= 修正 memond法m= △ m= 55 31 47 43 63 61 140 59 167。 BP算法收敛性定理 定理 令 φ(X)为一有界单调递增连续函数, K为Rn维的有界闭集合, f(X)=f(X1,X2,…,Xn)是 K上的连续函数,那么对于任意的 ε0。 存在正整数 N和常数 Ci、θi(i=1,2,…,N)和 Wij(i=1,2,…,N。 j=1,2,…,n)使: () 成立。 此定理说明对于任意 ε0, 存在一个三层网络 , 其隐单元的输出函数为 φ(X), 输入输出单元为线性的 ,对于任意连续映射 f: Rn→R m, 在任意的有界闭集合上能以任意精度逼近。     NinjijijinKXXWCXXXf1 121 )(),...,(m ax140 60 BP算法虽然简单 , 对各个方面都有重要意义 , 但是它存在有以下问题: 1. 从数学上看它是一个非线性优化的问题 , 这就不可避免地存在局部极小的问题。 2. 学习算法的收敛速度很慢 , 通常需要几千步迭代或更多。 3. 网络的运行还是单向传播 , 没有反馈 , 目前这种模型并不是一个非线性动力学系统 , 只是一个非线性映射。 140 61 4. 网络的隐节点数目选取尚无理论上的指导 , 而是根据经验或实验选取。 5.对于新加入的样本要影响已经学完的样本,不能在线学习,同时描述每一个样本的特征数目也要求必须相同。 140 62 167。 误差逆传播算法 (BP算法 )的若干改进 167。 基于全局学习速率自适应调整的 BP算法 167。 基于局部学习速率自适应调整的 BP算法 167。 BI(Back Impedance)算法 140 63 167。 基于全局学习速率自适应调整的BP算法 1. 加入动量项 其中 , 为动量系数 , 一般取。 引入这个动量项之后 , 使得调节向着底部的平均方向变化 , 不致产生大的摆动 , 即动量起到缓冲平滑的作用。 若系统进入误差曲面的平坦区 , 那么误差将变化很小 , 于是 △ (t+1)近似等于 △ (t) , 而平均的△ 将变为: 式中  / (1 )变化大 , 将调节尽快脱离饱和区和截至区。 )()1( twwEtw  wEw1140 64 2. 学习速率的经验公式法 对于批处理更新的学习速率,是基于相类似训练模式产生类似梯度的假设。 = / = 3. 学习速率渐小法 从大的学习速率 (0)开始,在训练期间,这个值减小到大约 (0)/(t+1),后来为 (t) = (0)/(t+1) 22221 mNNN 140 65 4. 渐进自适应学习速率 用一种简单的进化策略来调节学习速率。 从某个值开始,下一步更新通过用增加和减小学习速率去完成。 产生比较好性能中的一个被用作为下一步更新的起始点: ① 创建两个一样的网络和初始学习速率。 ②按下式调节两个网络的权。 EwEttwijij)()(140 66 ③ 如果两者总误差已经得到增加 (回溯 ), 放弃这些网络并重新起动以前的网络和初始学习速率。 ④在减小总误差的情况下,用具有比较小的总误差的网络以及学习速率以启动下一个学习步。 140 67 167。 基于局部学习速率自适应调整的BP算法 1. 基于符号变换的学习速率自适应 工作步骤如下: ① 对每个权值 , 选择某个小初值 ij(0); ②修改学习速率 ij(t)= ij(t1) u 如果 否则     01  tEtEijij        1tEttijijijij      1 tEtt ijijijij 140 68 ③ 更新连接 只要保持 u1/d,选择合适的参数和是很容易的。 推荐的值分别是。 如果总误差增加。 用回溯策略重新起动更新步骤,对于这种重新起动,所有学习速率被减半。 2. Delta—Bar—Delta技术 Delta—Bar—Delta方法通过观察指数平均梯度的符号变化来控制学习速率。 通过加入常值代替乘这个值来提高学习速率: ① 对每个权重 , 选择某个小的初值 ij(0) 140 69 ② 修改学习速率 如果 如果 其他 其中 (t)表示指数平均梯度:     utt  1ijij      01ij ttE ij    dtt  1ijij     01ij ttE ij   1ijij  tt        11  ttEt ijijij 140 70 ③ 更新连接 对于 u推荐很不同的值 (, , , ),对于 d ,采用 (, , )和对于 采用。 特别是难于找到合适的 u ,小的值可能产生慢自适应,而大的值危及学习过程。    ijijijEtt 140 71 167。 BI(Back Impedance)算法 1. BI算法 ① 给权值赋予一个小的随机数。 ② 给定输入函数值与相应的输出函数值。 ③计算每个节点的输出值, ④计算输出层节点的误差项, )e x p (11 iiijj YWY)1()( lllll YYYT  lkllkkk WYY  )1( jjkkjjj WYY  )1(140 72 ⑤ 调整权值 Wij(t+1)= Wij(t) + aj Y i + b(Wij(t) Wij(t1))+ c(Wij(t1) Wij(t2)) 式中, a学习率,相当于梯度下降算法中的学习步长; b影响从“前一次”权值改变到“当前”权值的权值空间运动方向,是影响权值变化的一个常数; c 影响从“再前一次”权值改变到“前一次”权值的权值空间运动方向,也是影响权值变化的常数。 a、 b、 c三个常数满足下列关系,则收敛速度会加快: a= 1 / (1+J+M+D) b= (2J+M) / (J+M+D) c= - J / (J+M+D) 140 73 式中 J、 M、 D满足: ⑥给定另一输入函数值,返回②。 所有的输入函数值循环进行计算,直至所有权值稳定,网络误差达到预定精度算法结束。 WEtWDtWMtWJ。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。