互联网网页文本对象抽取实现技术本科毕业论文(编辑修改稿)内容摘要:
美国国家标准技术研究所( NIST)组织的自动内容抽取( ACE, Automatic Content Extraction)评测会议。 这项评测从 1999年 7月开始酝酿, 20xx年 12月正式开始启动,从20xx年到 20xx年已经举办过好几次评测。 这项评测旨在开发自动内容抽取技术以支持对三种不同来源(普通文本、由自动语音识别 ASR得到的文本、由光学字符识别 OCR得到的文本)的语言文本的自动处理,研究的主要内容是自动抽取新闻语料中出现的实体、关系、事件等内容,即对新闻语料中实体、关系、事件的识别与描述。 与 MUC相比,目前的 ACE评测不针对某个具体的领域或场景,采用基于漏报(标准答案中有而系统输出中没有)和 误报(标准答案中没有而系统输出中有)为基础的一套评价体系,还对系统跨文档处理( Crossdocument processing)能力进行评测。 这一新的评测会议将把信息抽取技术研究引向新的高度。 [4] 课题研究方法 本文 针对 博客领域,以传统的信息抽取思想为基础,对博客网页进行分块处理,并结合机器学习和统计训练的方法获得决策树,从而 实现 对博客中的文章正文进行 抽取的功能。 论文构成 及研究内容 本文 试着从理论和 实现相 结合的角度, 提出一种基于博客相关信息的抽取实现策略。 首先, 阐述了信息抽取理论的发 展历史,发展现状。 分析了 互联网搜索技术的发展现状,探讨信息抽取与信息检索的区别和联系,并阐述了互联网信息抽取在互联网搜索中的应用状况 ; 其次 ,介绍互联网信息抽取的概念,方法,典型流程,具体阐述了本文所讨论的网页文本对象抽取的理论和方法; 再次 , 以博客网页文本对象抽取为例,介绍了基于博客正文信息抽取系统的实现步骤,给出该抽取实现方法的测试结果,分析此方法的优点和可以进一步改进的地方,并就其意义进行了阐述。 最后,简要介绍了应用互联网网页文本对象抽取技术的博客搜索引擎原型系统 湖南大学毕业论文 第 6 页 湖南大学软件学院 Geeseek 搜索引擎。 湖南大学毕业论文 第 7 页 湖南大学软件学院 2. Web 信息抽取 及网页文本对象抽取 概述 本章主要 介绍互联网信息抽取的概念 、 方法 、 典型流程,具体阐述了本文所讨论的网页文本对象抽取的理论和方法。 Web 信息抽取的概念 目前各类信息服务网站提供了大量的信息资源,但是互联网用户却很难享受到有效的信息服务,因为用户不可能天天都去访问所有这些网站。 这祥就形成了一种很尴尬的情况,一方面用户迫切需要某些信息资料,另一方面提供有关资料的网站却 很 少有人访问。 用户需要从多个信息数据源 ( 通常为各网站中的有关信息网页 ) 中同时获得所需要的信息,并能将它们有效地整合在一起。 目前 的信息服务还无法有效地整合多个信息服务站点的相关内容 , 因为互联网的信息发布与浏览均是基于 HTML 语法而编写的 Web网页来进行的。 而 Web 网页的内容描述是针对互联网用户浏览而进行的相关格式定义设计,并没有为计算机本身阅读和理解这些网页内容提供任何特殊的说明与注释。 因此为了从 Web 网页中抽取所需要的信息内容 ( 文本信息块 )。 研究人员开始把目光转向Web 信息的机器抽取工作。 Web 信息抽取 ( Web Information Extraction,简称 WIE) 是指:给 出 属 于 同一类型的若干样本网页。 找出它们的源数据集的嵌 套结构,并将源数据集从网页中抽取出来。 即通过对原文档倩息内容和结构的分析,抽取出有意义的事实,生成结构化的有价值的信息。 信息抽取流程如图。 图 信息抽取流程 [5] Web 信息抽取渐渐成为一个崭新而热门的课题,各种应用于网络数据抽取的工具也层出不穷。 从互联网资源中抽取数据的传统方法就是编写特定的程序,这种程序被称为 湖南大学毕业论文 第 8 页 湖南大学软件学院 “ Wrapper”。 Wrapper 是一个能够将基于 HTML 描述的 Web 网页内容转换为按照某 种结构化描述的数据集合 ( 例如 XML 数据、关系数据库 ) 的软件程序。 它由信息抽取所需的信息识别与 结构影射知识和应用这 种 抽取知识的处理程序组成。 根据各种工具用于产生 Wrapper 而采取的不同技术, 目前的 Web 数据抽取工具 可分为 六种: Wrapper 开发语言,可感知 HTML 的工具,基于 NLP 的工具, Wrapper 归纳工具,基于建模的工具,基于语义的工具。 [6] Web 信息抽取的方法 Web 信息抽取的方法主要可以分为以下两类: 一类是基于层次结构的信息抽取归纳方法,如 WHIRL、 Ariadne、 CiteSeer 等 , 基于层次结构的 Wrapper 归纳方法。 尽管页面的类型 、 结构 、 版面各异 , 但对于某个网站来说 ,页面的组织结构一般具有一些特定的规律。 如内容经常是以层次结构方式来组织的,页面中的项目以及项目之间的关系具有明确的模式。 基于层次结构的 Wrapper 归纳方法引入嵌套目录捕述方法 ( EmbeddedCatalog, 简称 EC) ,该方法将页面内容按照层次结构树 ( EC 树 ) 的形式加以描述。 EC 树的叶节点用以描述用户感兴趣的相关数据;EC 树的内部节点用以描述由多个项目组成的列表。 其中每个项目既可以是叶节点,也可以是项目列表 ( 项目嵌套 )。 EC 树中每一条边均与一个抽取规则相关联,每一个列表节点与一个列表循环规则相关联,根据 从根节点到相应叶节点的路径。 依次从父节点抽取路径上的每个子节点, Wrapper 就能够从页面中抽取任何用户感兴趣的项目。 另一类是基于概念模型的多记录信息抽取方法。 即对特定 WWW 数据源研制相应的 Wrapper。 通过记录识别获得记录相对应的信息块格式。 利用 Wrapper 进行有效的记录抽取。 步骤是设计构造描述特定内容的本体模型 ( Ontology Model) ,并由此产生一个数据库模式以及产生有关常量 、 关键字的匹配规则。 抽取信息时系统 调 用记录抽取器将页面分解为若干单个记录信息块,并除去其中的标记。 利用由分析器 ( Parser) 产生的匹配规则,从所获得的单个信息块中抽取有关的对象以及它们之间的关系。 并将他们存入数据记录表 ( DataRecord Table);最后利用启发知识,并根据有关的数据库模式 ,将所获得的数据填人相应的数据库中。 利用启发知识,在所抽取的常量与关键字之间建立关联。 并利用层次结构中的约束。 来决定如何构造数据库中的有关记录内容。 [5] 湖南大学毕业论文 第 9 页 湖南大学软件学院 Web 信息抽取的典型流程 信息抽取技术是指从一段文本中抽取指定的事件、事实等信息,形成结构化的数据并存入一个数据库,供用户查询和使用的过程。 接下来,以美国劳动部的 继续教育系统中 的 课程抽取问题为例,介绍信息抽取的五个主要的子步骤(如图 、图 ): 图 课程抽取系统中的示例文章 [7] 分块,即找到文本片段开始和结束的边界。 例如,在 此 课程抽取系统中,课程题目需要被抽取出来。 所以,分块的任务就是要找到课程题目的第一个和最后一个单词, 湖南大学毕业论文 第 10 页 湖南大学软件学院 不能包含其他无关的词语,也不能剔除过多的词语。 例如在 “Intro to Linguistics is taught”这句话中,你不能把这句话都包含进来,也不能只保留 “Intro to”。 分类,即确定在文本片段中要抽 取的是哪一个目标域。 例如,需要在 “Introduc tion to Bookkeeping”中抽取课程题目 , 在 “Dr. Dallan Quass”抽取课程教师 , 并在 “This course covers...” 中抽取课程描述。 通常,分块和分类是采用有限状态机而结合在一起实现的。 联合,即确定哪些域是属于同一条记录的。 例如,一些课程的描述可能包括好几段文字,而其他的可能就只有一段。 因此,在抽取的过程中就必须确定哪些段落是用于描述同一门课程的。 这个课程抽取的问题相对而言还比较简单,课程之间的描述可能是相 邻的,关系非常紧密。 如果要在一篇新闻中抽取一次国际贸易商讨会的相关信息,例如双方的代表人是谁,分别来自国家等等,这样的问题就复杂得多了。 因为要抽取的内容关联不大,而且稀疏地分布在文本之中。 因此,在这种需要确定两个实体是否是相互关联的时候,这种过程有时也被称为“关系抽取”。 实现了关系抽取的商业产品往往比仅仅实现了分类和分块的要有价值得多。 标准化,即将信息都标准化成一种统一的形式,这样能够进行可靠的比较。 例如,课程开设时间的表达形式多种多样, 如 “23pm”、 “3pm4:30pm”、 “15001630”等,如果要考察各门课程的开设是否重现了重叠情况时,就会发现很难对时间做出比较,此时就需要对时间转化成统一的形式。 再譬如,在考虑名字 “Wei Li”和 “Li, Wei”的时候,也需要确定姓和名的顺序。 通常,标准化是和去重(即将说明的下一步骤)联系在一起的。 去重,即去除重复的信息,使得数据库中不会出现重复的记录。 例如,一门课程可能在一个或多个学院开设,从而多次出现在不同的网页中,最终也会被多次地抽取,但是在数据库中只需要保存一条关于这门课程的记录。 湖南大学毕业论文 第 11 页 湖南大学软件学院 图 课程抽取系统的五个主要子过程 [7] 网页文本对象抽取的理论和方法 随着因特网的普及,网上提供了海量的包括半结构化数据的信息源 —— 网页。 网页与传统的自由文本相比有许多特点,即数据量大、更新快、变化快、形式多样,还包括超链接且跨平台和网站共享,处理自由文本的信息抽取技术不太适用于对网页的信息抽取。 因此需要开发一种合适的信息抽取技术来从大量不同的网页中抽取信息。 无论挖掘的目的是什么,都可以把 Web文本挖掘的一般处理过程用图。 湖南大学毕业论文 第 12 页 湖南大学软件学院 图 Intemet上文本数据挖掘的一般处理 过程 [8] 目前解决网页数据抽取问题比较典型的方法有: 由用户定义模式并给出模式与 HTML网页的映射关系。 由系统推导出规则同时生成:以要提取的信息在 DOM层次结构中的路径作为信息抽取的“坐标”,半自动化地生成提取规则。 然后根据提取规则生成 JAVA类,将该类作为 Web数据源 Wrapper组成的重要构件:将网页信息抽取知识分为若 干 层 , 利用各层模式之间相互联系的特点 , 动态获取各层中与 HTML页面内容具体描述密切相关的信息识别模式知识 ; 最终再利用所获得的多层信息识别模式 , 完成相应各个 HTML网页的具体信息抽取 工 作。 基本全自动化的 网 页数据抽取方法。 这类方法只要输入相应的网页 , 就能够自动进行分析和生成 Wrapper,并且将数据从网页中抽取出来。 在整个过程中需要用户干预的地方只是最后的数据结构的语义分析部分。 但目前这些方法还仅限于基于后台数据库模式由脚本语言直接生成的网页 ( 网页结构基本不变。 页面内容全部取自数据库 )。 自主抽取的方法。 这类方法通常以 W3C( World Wide Web Consortium) 的文档对象模型 DOM为基础 , 实现 由 多记录构成的网页信息内容的抽取,对 Web页面表格信息与列表信息进行自主 抽取。 所谓自主抽取是指根据用户的需求去访问专业信息服务网站的相关页面,自动抽取用户感兴趣的信息 ( 尤其是多记录构成的表格信息的内容 ) ,而不是以一种固定模式将所有信息内容全部都抽取出来。 用户可以定制某网站信息 , 因此在抽取知识中要加入用户的兴趣描述。 抽取过程包括文档解析和自主抽取两个阶段。 见图。 html 文档集 特征的建立 特征集的缩减 学习与知识模式的提取 模型 质量 的评价 知识模式 湖南大学毕业论文 第 13 页 湖南大学软件学院 图 信息自主抽取的两个阶段 [5] Web 文档 DOM 抽取结果 文档解析 信息自主 抽取 湖南大学毕业论文 第 14 页 湖南大学软件学院 3. 博客正文信息抽取系统的 设计 本章主要介绍 博客搜索的概况 ,提出基于 HTML特征和机器学习的 博客正文信息抽取 算法 的设计方案 , 对该算法进行 测试 和评估,并总结算法的优点和需要改进的地方。 博客搜索的 概况 博客,即 Blog或 Weblog,这一词源于“ WebLog(网络日志 )”的缩写,是一种网络个人信息的发布形 式。 一个 Blog其实就是一个网页,通常是由简短并且经常更新的 post所构成,在 post中可以插入超链接、电子邮件、图像、动画、电影、代码、引用等资源,这些张贴的文。互联网网页文本对象抽取实现技术本科毕业论文(编辑修改稿)
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。
用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。