基于模式的语义信息抽取及应用研究毕业论文(编辑修改稿)内容摘要:

....... 22 图 4. 4 分词后的文本划分为不同的类别 ...................................................... 23 图 4. 5 相关文档集的聚类结果 ..................................................................... 24 图 4. 6 模式合并结果 ..................................................................................... 26 图 4. 7 泛化后的模式结果 ............................................................................. 26 图 4. 8 中医医案文本 ..................................................................................... 27 图 4. 9 测试语料划分为不同的类别 .............................................................. 27 图 4. 10 实验得到的信息抽取模式 ................................................................ 28 图 4. 11 信息抽取模式 ................................................................................... 28 图 4. 12 不适宜全部合并的实例 ................................................................... 29 图 5. 1 中医信息抽取流程图 ......................................................................... 33 图 5. 2 典型中医肝病医案 ............................................................................. 35 图 5. 3 典型中医肝病医案分词标注结果 ...................................................... 36 图 5. 4MapRules 的数据结构 ......................................................................... 39 基于规则的信息抽取技术的研究及其在中医医案文献中的应用 XII 图 5. 5 典型中医肝病医案信息抽取结果 ....................................................... 44 图 6. 1 基于模式匹配的中医医案信息抽取系统结构图 ............................... 48 图 6. 2 信息抽取模块流程图 .......................................................................... 50 图 6. 3 用户登录界面设计 .............................................................................. 51 图 6. 4 用户管理界面设计 .............................................................................. 52 图 6. 5 系统主界面设计 ................................................................................. 52 图 6. 6 用户词典管理界面 .............................................................................. 53 图 6. 7 基于模版匹配的抽取界面 .................................................................. 54 北京科技大学硕士学位论文 XIII 附表清单 表 5. 1 模式库 系统用到的 16 个模式 ........................................................... 31 表 5. 2 模式中数字的含义 ............................................................................. 32 表 5. 3 模式中字母的含义 ............................................................................. 32 表 5. 4 中医医案的用户词典 ......................................................................... 34 表 5. 5 VecWordCate 数据结构图 .................................................................. 39 表 5. 6 基本信息部分实例 ............................................................................. 40 表 5. 7 主诉部分存储实例 ............................................................................. 40 表 5. 8 治则部分存储实例 ............................................................................. 41 表 5. 9 VecWordCate 数据结构图 .................................................................. 41 表 6. 1 用户信息表 ......................................................................................... 50 表 6. 2 案例信息表 ......................................................................................... 51 北京科技大学硕士学位论文 1 1 绪论 课题背景 课题的来源,目的和意义 该研究课题来源 于 “十二五”国家科技支撑计划“ 名老中医临床经验、学术思想传承研究(一) ” 项目。 本课题研究目标是从中医传承的临床需求出发, 汇聚中医学、认知科学、信息技术,研发 中医 医案信息抽取系统,即 临床医案收集、储存、分析、管理为一体的系统,实现临床患者病案采集、数据存储 、结构化处理等功能。 研发模式库生成系统,实现 自动化地从文本中获取模式,生成模式库,用于支持信息抽取的过程。 研发信息抽取系统,实现系统自动识别出医案文本中特定语义信息。 随着近几年来中医学研究的深入进行,对中医医案的信息分析需求越来越迫切,经历了中国五千年的文化变迁,中医历史积累了海量的中医医案,收录散杂,在内容和文字上不免也存在着讹、漏、误、衍等错误现象 [15],采用人工手段进行查找与分析已经不能满足快节奏需求。 利 用信息抽取的办法,将形式多样、内容丰富繁杂的中医医案以统一、完整结构化的形式提取出来,有效而抢救性地整理和保留了临床经验,将无形的经验变成有形的可供大家共享的知识,这对我国中医药领域的传承意义重大。 课题的研究内容 本文研究 基于模式 的信息抽取技术及应用,课题解决的主要技术难点及技术方案: ( 1) 模式匹配是信息抽取普遍采用的方法,如何生成模式是课题研究的难点和重点。 本文根据中文自身的特点, 考虑到模式即为在文本中经常出现的句法结构 , 同时借鉴 英文文本的模式获取方法 , 提出一种基于聚类的 模式获取 方法,实现了 从中医 医案 中自动获取模式。 首先对文本进行 预处理,然后对分词后的文本 聚类 , 将分词后的短语 划分为不同的类别, 则每个类别为 一个模式集。 将同一模式集中的模式实例进行合并, 就可以得到最终的信息抽取模式。 ( 2) 研究信息抽取技术在中医医案领域的应用,实现机器自动识别 中医医案里包含的“病”、“证”、“症候”等相关属性及病人基本信息形成最小数据冗余基于规则的信息抽取技术的研究及其在中医医案文献中的应用 2 的数据。 本文尝试采用基于模式匹配的正则匹配算法。 第一步对文本进行分词、词性标注处理,第二步在模式库的支持下,采用模式匹配算法,最终实现了 机器对医案的“人名”、“出诊时间”、“ 症候 ” 信息的识别,以及实体间关系识别。 论文的主要工作 本文的主要工作包括以下几个方面: 1)综述信息抽取及相关技术方法,主要内容 包括相关概念的介绍,技术专有名词的解释说明,还包括对各种技术的 分析。 2) 重点研究了基于模式的中医医案的信息抽取问题。 构建动词库、模式库。 3)设计并实现了一个基于中医医案的信息抽取原型系统。 该系统提供了一个方法以供用户使用,能够很好的实现对中医医案信息的抽取。 本文的组织结构 本文共分 7 章,每部分的组织如下: 第一章首先介绍了 本课题的课题背景 ,阐述了 课题的来源,目的及意义,说明了课题 的研究内容。 第二章给出了模式自动生成的学习方法以及它们的优缺点。 第三章介绍了中医领域中文文本的特点,提出了信息抽取的任务。 第四章介绍了模式自动生成方法的思想和具体步骤,并给出了实验结果。 第五章介绍了基于模式匹配的信息抽取方法 第六章 完成基于模式匹配的中医医案信息抽取系统,实现了其中的命名实体识别(人名、地名、时间等名词性短语)的工作 第七 章 总结与展望 最后是本文的参考文献,及本文作者对导师和实验室同学的衷心感谢。 北京科技大学硕士学位论文 3 2 信息抽取模式学习 系统 综述 信息抽取模式学习系统分类 为了进行 IE( Information Extraction)模式的学习,人们先后设计过各种 IE模式获取系统,例如 AutoSlog、 PALKA、 CRYSTAL、 LIEP、 AutoSlogTS、 ExDisco、TIMES 等。 根据 IE模式获取系统需要用户辅助工作 方式 的不同,可以把这些系统分为四个类别: 它们为 基于人工语料标注的 IE模式学习系统,如 AutoSlog、PALKA、 CRYSTAL、 LIEP 等。 基于人工语料分类的 IE 模式学习系统,如AutoSlogTS 等。 基于种子模式的自举 IE 模式学习系统,如 ExDisco 等。 基于WordNet和语料 标注的 IE模式学习系统,如 TIMES 等。 下面 分别 介绍这四类系统的工作原理。 基于人工语料标注的 IE 模式 学习 系统 基于人工语料标注的 IE 模式学习系统 的 原理 基于人工语料标注的 IE 模式获取 系统的基本原理是: 使用一种 IE 模式表示方式,人工预先标注训练语料, 接着利用机器学习的方法从训练语料中学出 IE模式。 例如 AutoSlog、 PALAK、 CRYSTAL、 LIEP。 本节详细介绍 AutoSlog 和PALKA 的工作原理。 AutoSlog 是世界上第一个成功实现利用机器学习的方法获取信息抽取模式的系统,由 Massachusetts 开发。 AutoSlog 的核心 就是一个模式学习算法。 对于一个特定的 IE 任务,系统的输入是人工标注的训练语料 ,一套语言模式集(领域无关) 和一个相关领域的语义词典。 系统的输出 是对应案例语句的 IE 模式。 另外,整个统的实现需要 CIRCUS 句法分析器的辅助支持, CIRCUS 句法分析器的功能是自动识别句子中的主语、谓语和宾语等。 最后需要人工对学出的模式进行审定和筛选。 语言模式集(领域无关) 由人工设计而成。 对于不同领域的信息抽取任务,语言模式集并不需要做较大改动。 图 列出了 针对恐怖活动事件用到 的语言模式,以及与它们对应的一条 IE 模式。 基于规则的信息抽取技术的研究及其在中医医案文献中的应用 4 图 2. 1 AutoSlog 采用的 语言表达模式及 IE 模式 这里的语言模式集和 IE 模式的不同之处在于:语言模式是领域无关的,是由人工预先给定的。 而 IE 模式是由该系统自动生成的,是给出的语言模式实例化的结果。 IE 模式用于对一个事件进行信息抽取。 语言模式“ subject activeverb”的含。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。