web信息抽取中的文本分类毕业论文(编辑修改稿)内容摘要:

按照一定的分类体系或标准进行自动分类标记 的过程。 对于总系统来说,文本的来源为 Web 文本,这种文 本有着来源分散、结构松散、文本内容复杂等特点,所以对这 种文本进行 分类与对来源单一、结构完整、文本内容相对稳定的文献、论文 等进行 分类有着更多难点。 首先来源分散,这使这些文本的格式或者文章涉及的内容复杂多变,很难用文章的来源 或者目录索引 来进行相应的分类, 所以 分类器或者分类方法只能根据内容进行分类。 其次结构松散,这使得文本的结构不 完整,无法获得全部文本的题目、关键字等信息 以 进行分类,这 就 要求分类器或者分类方法能够过滤出一定的语义信息并根据这些语义信息进行分类, 从某种意义说就是能够提取出区分性很好的,并且代表这 篇文章的语义 关键字。 再次文本内容复杂, Web 文本提及的内容不一定为专业性文章,虽然谈论的主题不变 , 但所涉及的内容多变,比如一篇军事文章可能还会提及政治经济的内容,这要求分类器具有很强的抗干扰能力,不会因为一些非重要的内容而严重影响分类精度。 综上,可 以明确一点就是硬性的分类标准很难做到以上三点的分类要求,所以 分类时 不能简单的规定某种硬性的标准如:某个词是否出现、文章的字数、是否有数学公式等等。 文本 分类 最 容易想到使用 人工的方法,但面对海量的文本信息人是无能为力的,但 是可以通过某种机制来模仿人的分类过程,首先 人是需要经验的,没读过文章的人是无法分类文 章的,所以分类器也需要学习需要训练,统计学习的理论正好满足要求 ,另外人是需要一套很模糊的评价标准和推理依据的,所以分类器也需要这样的逻辑过程和模糊机制,人工神经网络算法 也正好满足要求。 目前,常用的文本分类算法有 决策树 (decision tree)、 人工神经网络 、 贝叶斯、8 Web 信息抽取中的文本分类 KNN、 SVM 等。 综合考虑了性能、分类效果、抗干扰能力等方面的因素,决定使用 SVM 进行文本分类 , SVM 算法的特性使 它成为一种基于模型的 分类 方法 , 它 基于统计学习的理论又有人工神经网络的特点 ,并且在 决 策树 (decision tree)、 人工神经网络 、 贝叶斯等众多分类算法中, SVM 是第一个达到 KNN 分类精度的分类算法。 支持向量机 (SVM) SVM 方法于 20 世纪 90 年代初由 V. Vapnik 提出。 这种方法采用了结构风险最小化的思想,并完全基于超平面的方法,利用核函数进行扩展。 支持向量机是数据挖掘中的一个新方法,能非常成功地处理回归问题 (时间序列分析 )和模式识别 (分类问题、判别分析 )等诸多问题,并可推广于预测和综合评价等领域,因此可应用于理科、工科和管理等多种学科。 目前国际上支持向量机在理论研究和 实际应用两方面都正处于飞速发展阶段。 它广泛的应用于统计分类以及回归分析中。 支持向量机属于一般化线性分类器 , 他们也可以 被 认为是提克洛夫规则化( Tikhonov Regularization)方法的一个特例。 这 一 族分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区 , 因此支持向量机也被称为最大边缘区分类器。 分类的过程是一个机器 自动 学习的过程 这是所希望的。 数据 通常 是 n 维实空间中的点 ,这里 希望能够把这些点通过一个 n1 维的超平面分开 , 这个 分类器 被称为线性分类器。 有很多分类器都符合这个要求 , 但是 这里 还希望 能够 找到分类最佳的平面,即使得属于两个不同类 别 的数据点间隔最大的那个面,该面亦称为最大间隔超平面。 如果能够找到这个面,那么这个分类器就称为最大间隔分类器。 支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。 在分开数据的超平面的两边建有两个互相平行的超平面。 建立方向合适的分隔超平面使两个与之平行的超平面间的距离最大化。 其假定为,平行超平面间的距离或差距越大,分类器的总误差越小。 下边 将详细说明一下支持向量机的原理。 充分的理解 支持向量机的原理 可以有效的帮助分析 和理解 哪些因素能够决定 SVM 的分类精度,以及在 中文 文本分类中这些 决定性的 因素表现为什么。 第二章 相关理论 9 SVM 的原理 本节 中出现的 部分 公式引自 Usama Fayyad 的《 A Tutorial on Support Vector Machines for Pattern Recognition》 或者基于此文中的定义方式, 并配以本人 解释 和简要说明。 线性 支持向量机 如图 所示,对于可分离的情况,图中黑点和白点为需要分离的两类点,一个超平面 H 将两类点分开,并且在 H 两侧有平行 且等距 于 H 的超平面 1H 和 2H ,1H 和 2H 将两类点 分隔 在它们之外。 一些临界点就 位于 1H 和 2H 之上。 对于支持向量机 来说,它 的分类过程是 分两个阶段的:训练阶段和测试阶段。 在训练阶段, 支持向量机的目标就是要寻找到这样的一个超平面 H ,它到 1H和 2H 的距离最大, 使得 1H 和 2H 之间有最大的分类间隔。 这时的超平面 H 被成为最大可分离 超平面,根据结构风险最小化的思想,可以知道, 1H 和 2H 之间的分类间隔越大, SVM 的 经验风险就越小,所以可以通过最大化 1H 和 2H 之间的分类间隔来最小化实际风险,这也就体现出了 SVM 结构风险最小化的思想。 图中 w 为超平面 H 的法线, ( )/| |b w 为原点到超平面 H 的距离,在实际的求解过程中,可以将这个求解最优化的问题利用拉格朗日乘数法转变为相应的拉格朗日表达式 进行求解,为了求解方便一般还要将拉格朗日表达式转化为对偶形式(这也就是 SVM 会被 认为是提克洛夫规则化方法的一个特例 的原因), 这个对偶式连同 KKT 条件就可以求解到最优条件下的 w 和 b。 伴随着 w 和 b 的确定也就将最大可分离超平面 H 确定了,但这里还得到计算过程的 一些 副产品 —— 支持向量,由于支持向量位于 1H 和 2H 上,所以支持向量对分类来说更有实用价值。 综上,一个明确 的 事实是 : 有了支持向量,其它点的意义已经不大了,因为仅依靠支持向量就 足以重新构造 H。 在测试阶段,由于有了前边 得到 的支持向量,可以很容易的找到最大 可 分 离超平面 H ,所以 只要检验测试数据位于 H 哪侧即完成分类工作。 10 Web 信息抽取中的文本分类 图 可分离情况下的线性可分离超平面 圆环是支持向量 [1] 上边算法用于可分离数据,对于不可分离的数据来说,可以引入一个正的松弛变量  来解决问题 ,如图 ,这里出现了一个不可分离的黑点, ( )/| | w 为此黑点到 2H 的距离。 图 不可分离情况下的线性可分超平面 [1] 求解的思想和方法与可分离的 情况基本相同,唯一不同的是,在不可分类情况下会多一个 KKT 补充条件,因为这里也多了一个变量 。 图 展示了两类模式识 别 或分类的 问题,一个可分离一个不可分离。 待分的两类分别由 黑点和暗点 表示,而 支持向量被多加了一个小环。 不可分离情况下的 错分点 被 多 加了一个叉 形 来 标识。 第二章 相关理论 11 图 线性情况下可分离 (左 )不可分离 (右 ) 背景色表明了决策面的形状 [1] 非线性支持向量机 如何将上边的方法推广到决策函数是非线性函数的情况 仍然是个问题。 训练问题中数据 都是以 点积 ijxx的形式 出现。 所以可以 假设 使用叫做  的映射 , 映射数据到某个其他的(可能是无限维) 欧式空间 H : : d R H 式 ( 21) 于是训练算法也就只依靠数据在 H 上的点积, 即    ij xx的 形式。 现在如果有个“核函数” K 使      ,i j i jK   x x x x,就只需要在训练算法中使用 K而不需要明确的知道  是什么。 由于 H 是无限维的, 所以明确知道  是什么是不可能的。 但是,如果将训练算法中的每个 ,ijxx都由  ,ijK xx 代替,那么就会产生一个无限维空间中的支持向量机,此外这样做消耗的时间和训练没有映射的数据所消耗的时间大体上是一样的。 所有需要考虑的仍然是在做线性分离,只不过是在不同的空间。 在测试阶段, 只要以同样的方式      ,iiK   s x s x进行计算就可以了。 需要明确的是不是所有函数 都 存在  ,H 这样的二元组使它成为核函数, 但可以通过 Mercer 条件 来进行判断 (Vapnik, 1995。 Courant and Hilbert, 1953): 如果 存在一个映射  和一个展开式      , iiiK   x y x y 式 ( 22) 12 Web 信息抽取中的文本分类 当且仅当对于任何 gx 都有  2gd xx是有限的 式 ( 23) 那么      ,0K g g d d  x y x y x y 式 ( 24) 如果使用不满足 Mercer 的条件的核函数对于二次规划的问题是无解的。 但是在这种情况下训练 过程仍然 是 收敛 的 可以完成的。 三个最常用 的核函数如下:    ,1pK   x y x y 式 ( 25) 22|| || /2( , )Ke  xyxy 式 ( 26)  , ta n h ( )Kk   x y x y 式 ( 27) 等式( 25) 被称为多项式核函数, 等式( 26) 被称为高斯径向基核函数, 等式( 27) 被称为 Sigmoid 核函数。 图 展示了与图 中相同的 分类 问题的 结果, 但是这里的核函数选择了 三次多项式。 注意到对于线性 可分的情况(左侧图)尽管三次多项式核函数的自由度更高,但 结果还是粗略的为一条直线,说明 分类 能力是 受到限制的;但是对于线性不可分的情况(右侧图), 它 已经变得 可分了。 图 度为 3 的多项式核函数 背景色展示了决策边界的形状 [1] 最后,尽管上边描述 SVM分类器都是二分分类器,但它们是很容易联合起来解决多分的情况的。 一个简单的联合方法就是为一个 N类的 分类问题 训练 N个onevsrest分类器(也就是说, “ 一个 ” 为正向的, “ 其余 ” 都 为负向),然后将测试 数据 分入到具有最大的正向距离的一类中, 这 个方法 与决策树 工作 方法 极为第二章 相关理论 13 类似。 SVM 文本分类 前 边已经说过 SVM 在分类方面 的 表现相当优秀,通过 节的 说明,知道SVM 是数学上的一套方法,所以 SVM 是无法处理非数字的东西的,比如文字、图片和声音等等, 但有时又有必要对这些集合进行分类。 对于计算机中的图片和声音而言,这一点是很容易转换或者解释的,那就是这些图片和声音在计算机中的存储形式就是数字化,这就提供了应用 SVM 进行图片和声音分类的数字基础, 所以在经过 滤波、降噪等等一系列预处理后,就可以通过训练来训练出一个需要的 SVM 分类模型。 当需要分类的时候只需要把数据经过相同的预处理,就可以应用这个分类模型来分 类了。 而对于计算机中的文字来说,其存储形式虽然也是数字化的,比如 ANSII、Unicode 等等,但这些是无法直接拿来用 SVM 处理的,这是为什么。 首先 , 可以明确的是图片和声音的数字化是能够直接反应这些图片或者声音本质的,也就是说这些数字可以说明或者表达出这个图片或者声音中有什么,而单纯的 ANSII 或者 Unicode 序列是不能的,因为不能通过这样的一个单纯的序列来断定文本的意思,文本中意思的传达是通过词语实现的,离散的单字是无法表达出文本的语义信息的,这就像盲人摸象一般。 其次 , 如果采用这种 ANSII 或者 Unicode 序列来进行文本分类,得到的结果就是,这两篇文章在外表上很像,也就是说字符串的序列差别很小,这类似于说两个人长得很像,却没有说明两个人的职业相同。 再次 , 在中文中存在着一字或一词多词性 和 多语义。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。