基于matlab的svr回归模型的设计与实现毕业论文(编辑修改稿)内容摘要:

有界实函数的 VC 维可以通过用一定的阈值将它转化成指示函数来定义。 VC 维反映了函数集的学习能力, VC 维越大则学习机器越复杂 (容量越大 ),目前尚没有通用的关于任意函数集 VC 维计算的理论,只对一些特殊的函数集知道其 VC 维。 Vapnik 和 Chervonenkis 在 1968 年又发现了下面的规律: VC 维对于 一个指示函数集,如果其生长函数是线形的,则它的 VC 维为无穷大;而如果生长函数以参数为 h 的对数函数为界,则函数集的 VC 维是有限的且等于 h。 VC 就是取 Vapnik 和 Chervonenkis名字的首字而成。 所以,学习机器所实现的指示函数集的 VC 维有限就是 ERM 方法一致性的一个充分必要条件,这一条件不依赖于概率测度。 而且,一个有限的 VC 维意味着快的收敛速度。 支持向量回归 在引入支持向量回归之前,首先要对回归问题进行形式化,并因此抽象出学习机的形式化概念。 线形情形,支持向量回归问题可形象的理解为在误差带内寻 求一个最为平坦的直线,此直线回归训练,并具有最小的损失。 对于非线形情形,同支持向量机识别,通过向高维空间映射,将问题转化为高维空间 (Hilbert 空间 )的线形回归问题,并且使用核函数来求得最优解。 回归初步形式 回归问题是个古老的数学问题,在工程上也有大量的应用背景。 在传统经典的回归中,尽管存在着多种估计的方法,但研究的大部分集中在最小二 第 2 章支持向量机回归原理 6 乘法。 这种分析方法称为综合分析,其主要目的是将数据聚集在一起,并综合出数据的一个拟合模型。 接着同样重要的一个阶段是案例分析。 这里数据被用于检验拟合模型对被研究 的关系是否合适 、有用。 其结果可能导致对原先指定的拟合模型的修改,此后,回复至综合分析。 在具体实施中,则大量的借助统计学的理论和技术。 如参数估计与假设检验等一些知识。 而本设计主要讨论的回归方法则侧重于 Vapnik 的统计学习理论,从问题的模型确立到问题解决途径上可能和经典的回归不大一样,但本质是一致的。 回归问题可形式化为: 给定一个训练集合,其元素有某个未知的分布 ),( yxP 观测得到 (此处的观测可能夹杂某种 噪 声 ):       ii yxyxyxX , 2211  with RyRx ini  , 和一个函数族  RRffF n  :| 基本回归问题是要找到一个函数 Ff , 此函数 风险最小化 表达式 :   ),()),((][ yxdpxxfycfR 其中, C 是损失函数,它指出 y 和 )(xf 之间的差错将如何被惩罚,因为 ),( yxP 未知, 不能直接对 ][fR 进行估值,而是要通过计算如下的经验风险:  lie mp xxfyclR 1 )),((1 并通过 genemp RR  对 R 进行限界。 其中 genR为所谓的泛化错误上界,根据 Vapnik 的理论,它依赖于用来进行回归的函数族 F。 线性支持向量回归 支持向量回归建立在统计学学习理论的基础之上 ,并维持以上提出的学习机的模型但采取完全不同的策略。 在这里 F 取为 n 维超平面:  nRbxxffF   ,),()(| 损失函数一般有多种形式,根据实际问题的不同可选用不同的损失函数。 此处给一般情形:含有  误差带的损失函数,这样的函数满足以下形式:    o th e r w is exfyc xfyf o rxfyxc ))(( )(0))(,(   并且对非 0时的损失函数要求具备凸性。 学习的结果使得在的周围形成一个精度为的误差带。 其线性支持向量回归机的结果是线形的。 第 2 章支持向量机回归原理 7 非线性支持向量回归 对于非线性回归,保持以上的策略不变,但首先对输入数据进行非线性预处理。 使用 非线性映射  把数据从原空间 nR 映射到一个高维特征空间  ,再在高维特征空间 进行线性回归。 同理,在非线性空间中也 只考虑高维特征空间  的点积运算:),()()()( yxkyxx  ,而不必明确知道 )(x 是什么。 其关键问题是核函数 ),( yxk 的采用。 此时,非线性支持向量机回归具有以下模型: F 取为:  nRbxxffF   ,))(,()(| 损失函数和能力控制策略同线性支持向量回归,其求解结果具有如 下形式 : )()(1 ili xaa    因此,    li iii bxxkaaxf 1 ),()()( 支持向量机回归通过将最小化经验风险和能力控制规约在一个目标中,一并将其转化为一个凸二次优化问题的求解途径不仅实现了结构风险最小化的原则,而且由于严格的凸性要求使问题求解在可行域中总能搜索到最优解,而不会陷入局部最小。 在非线性情形,使用核函数技巧,通过只计算输入空间的数量积避免了维数灾难问题。 从求解结果我们可以看出,最终的解,决定于输入模式的数量积,而与输入模式的维数无关,其计算规模 正比于输入模式中支持向量的个数。 因而可有效地处理高维空间的问题,而不受到维数的限制。 支持向量回归核函数 支持向量机的一个引人注目的特点是用核函数代替向量间的内积运算来实现非线性变换,而不需要非线性的具体形式。 研究人员根据这一思想改造经典的线性算法并构造出对应的基于核函数的非线性形式。 支持向量回归模型最重要的一个参数就是核函数。 选择什么样的核函数,就意味着将训练样本映射到什么样的空间去进行线性划分。 支持向量机回归算法的技巧在于不直接计算复杂的非线性变换 ,而是计算非线性变换的点积,即核函数,从而大大简 化了计算。 通过把核函数引入到一些学习算法,可以方便地把线性算法转换为非线性算法,我们将其与支持向量机一起称为基于核函数的方法。 在高维特征空间实际上只需要进行点积运算,可以用原空间中的函数实现的,甚至没有必要知道变换的形式。 根据泛函的有关理论,只要一种核函数 ),( ixxK 满足 Mercer条件,它就对应某一变换空间中的点积。 因此,在最优分类面中采用适当的点积函数),( ixxK 就可以实现某一非线性变换后的线性分类,而计算复杂度却没有 增加。 张铃证明了核函数存在性定理,并提出了寻找核函数的算法。 核函数存在性定理表明:给定一 第 2 章支持向量机回归原理 8 个训练样本集,就一定存在一个相应的函数,训练样本通过该函数映射到高维特征空间的相是线性可分的。 进一步研究了支 持矢量机的支持向量集与核函数的关系,研究表明对非线性可分情况,对一个特定的核函数,给定的样本集中的任意一个样本都可能成为一个支持向量。 这意味这在一个支持向量机下观察到的特征在其它支持向量机下(其它核函数)并不能保持。 因此,对解决具体问题来说,选择合适的核函数使很重要的。 SVM 由训练样本集和核函数完全描述,因此 采用不同的核函数就可以构造实现输入空间中不同类型的非线性决策面的学习机,导致不同的支持向量算法。 本课题研究的几种核函数如下: 线性内核 jiji xxxxK ),( 多项式内核 qjiji xxxxK ]1),[(),(  径向基函数内核  22e xp),(  jiji xxxxK Bsplines 内 核 )(),( 12 jinji xxBxxK   支持向量回归算法 支持向量回归的算法的基础 1. 寻求方向 约束最优化的一种方法是在可行空间按一定的方向逐步搜索,逼真最优点,这就涉及到寻求最优方向的问题。 对给定问题 RRxf n :)( 的可行域 S 中点 x,对于某个非零n 维向量 d 存在 0 ,当 ),0( a 时使得: 0)(   xfd SadxT 的方向被称为 x 处的寻优方向,而对于正定的归整约束,理论上可保证在一定的迭代次数后收敛。 2. 对偶差 另一种约束最优化的方法是从对偶理论入手,利用对偶差和 KKT 条件来寻找最优点。 对于可行的主变量和对偶变量,凸最小化问题的主目标函数的解常常比 (凸最大化的 )对偶目标函数的解要大。 当且仅当在最优化解处这两个解才相等。 因此对偶差常被作为衡量目标函数变量的当前解和最优解距离的一 种度量,此理论来自 Lagrange 函数 第 2 章支持向量机回归原理 9 的鞍点特性。 以此为基础的算法则通过逐步加强 KKT 条件,并通过对偶差来进行评估,来逼真最优点。 3. 不敏感损失函数 支持向量机方法是从解决模式识别问题发展起来的,在支持向量分类机中,一般来说,可以用少量的支持向量来表示决策函数,即具有稀疏性。 当把该方法推广到回归问题时,很重要的一点就是希望找到合适的支持向量回归 (SVR)算法,仍然保持这个性质。 从上述回归问题的数学提法可以看出,为建立算法,需要选择适当的损失函数。 现介绍回归估计中最常见的一种损失函数,它可以保持稀疏性。  不敏感损失函数 )())(,( xfyxfyxc  其中 }|)(|,0m a x {)(   xfyxfy ,这里  是事先取定的一个正数,  不敏感损失函数的含义是,当 x 点的观测值 y 与预测值 )(xf 之差不超过给定的  时,则认为在该点的预测值 )(xf 是无损失的,尽管预测值 )(xf 和观测值 y 可能并不完全相等, 如下面损失函数图像 21 所示。 图 21 损失函数图象 如果 )(xf 为单变量线性函数   bxxf  )( , 当样本点位于两条 虚线之间的带子里时,则认为在该点没有损失,我们称两条虚线构成的带子为  带。 只有当样本点位于  带之外时,才有损失出现,例如,下图 22中 ),( yx 处的损失为   )(xfy 第 2 章支持向量机回归原理 10 图 22 不敏感损失带 容易看出,  不敏感损失函数有一个特点:对样本点来说,存在着一个不为目标函数提供任何损失值的区域,即  带。 这个特点是其他许多损失函数并不具备的。 我们可以期望,在  带内的样本点,不会出现在决策函数中。 SVR 回归算法 利用核函数将输入数据映射到高维特征空间 F ( 通常是无限维 ),在特征空间实现线性回归,估计函数具有如下形式: bxxf  )()(  这里 FRd : ,映射到特征空间,  表示特征空间中的内积, F 且 Rb 为从训练数据集 D 估计函数 f ,典型的支持向量回归最小化正则化风险。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。