基于模式的语义信息抽取及应用研究毕业论文(编辑修改稿)内容摘要:
....... 22 图 4. 4 分词后的文本划分为不同的类别 ...................................................... 23 图 4. 5 相关文档集的聚类结果 ..................................................................... 24 图 4. 6 模式合并结果 ..................................................................................... 26 图 4. 7 泛化后的模式结果 ............................................................................. 26 图 4. 8 中医医案文本 ..................................................................................... 27 图 4. 9 测试语料划分为不同的类别 .............................................................. 27 图 4. 10 实验得到的信息抽取模式 ................................................................ 28 图 4. 11 信息抽取模式 ................................................................................... 28 图 4. 12 不适宜全部合并的实例 ................................................................... 29 图 5. 1 中医信息抽取流程图 ......................................................................... 33 图 5. 2 典型中医肝病医案 ............................................................................. 35 图 5. 3 典型中医肝病医案分词标注结果 ...................................................... 36 图 5. 4MapRules 的数据结构 ......................................................................... 39 基于规则的信息抽取技术的研究及其在中医医案文献中的应用 XII 图 5. 5 典型中医肝病医案信息抽取结果 ....................................................... 44 图 6. 1 基于模式匹配的中医医案信息抽取系统结构图 ............................... 48 图 6. 2 信息抽取模块流程图 .......................................................................... 50 图 6. 3 用户登录界面设计 .............................................................................. 51 图 6. 4 用户管理界面设计 .............................................................................. 52 图 6. 5 系统主界面设计 ................................................................................. 52 图 6. 6 用户词典管理界面 .............................................................................. 53 图 6. 7 基于模版匹配的抽取界面 .................................................................. 54 北京科技大学硕士学位论文 XIII 附表清单 表 5. 1 模式库 系统用到的 16 个模式 ........................................................... 31 表 5. 2 模式中数字的含义 ............................................................................. 32 表 5. 3 模式中字母的含义 ............................................................................. 32 表 5. 4 中医医案的用户词典 ......................................................................... 34 表 5. 5 VecWordCate 数据结构图 .................................................................. 39 表 5. 6 基本信息部分实例 ............................................................................. 40 表 5. 7 主诉部分存储实例 ............................................................................. 40 表 5. 8 治则部分存储实例 ............................................................................. 41 表 5. 9 VecWordCate 数据结构图 .................................................................. 41 表 6. 1 用户信息表 ......................................................................................... 50 表 6. 2 案例信息表 ......................................................................................... 51 北京科技大学硕士学位论文 1 1 绪论 课题背景 课题的来源,目的和意义 该研究课题来源 于 “十二五”国家科技支撑计划“ 名老中医临床经验、学术思想传承研究(一) ” 项目。 本课题研究目标是从中医传承的临床需求出发, 汇聚中医学、认知科学、信息技术,研发 中医 医案信息抽取系统,即 临床医案收集、储存、分析、管理为一体的系统,实现临床患者病案采集、数据存储 、结构化处理等功能。 研发模式库生成系统,实现 自动化地从文本中获取模式,生成模式库,用于支持信息抽取的过程。 研发信息抽取系统,实现系统自动识别出医案文本中特定语义信息。 随着近几年来中医学研究的深入进行,对中医医案的信息分析需求越来越迫切,经历了中国五千年的文化变迁,中医历史积累了海量的中医医案,收录散杂,在内容和文字上不免也存在着讹、漏、误、衍等错误现象 [15],采用人工手段进行查找与分析已经不能满足快节奏需求。 利 用信息抽取的办法,将形式多样、内容丰富繁杂的中医医案以统一、完整结构化的形式提取出来,有效而抢救性地整理和保留了临床经验,将无形的经验变成有形的可供大家共享的知识,这对我国中医药领域的传承意义重大。 课题的研究内容 本文研究 基于模式 的信息抽取技术及应用,课题解决的主要技术难点及技术方案: ( 1) 模式匹配是信息抽取普遍采用的方法,如何生成模式是课题研究的难点和重点。 本文根据中文自身的特点, 考虑到模式即为在文本中经常出现的句法结构 , 同时借鉴 英文文本的模式获取方法 , 提出一种基于聚类的 模式获取 方法,实现了 从中医 医案 中自动获取模式。 首先对文本进行 预处理,然后对分词后的文本 聚类 , 将分词后的短语 划分为不同的类别, 则每个类别为 一个模式集。 将同一模式集中的模式实例进行合并, 就可以得到最终的信息抽取模式。 ( 2) 研究信息抽取技术在中医医案领域的应用,实现机器自动识别 中医医案里包含的“病”、“证”、“症候”等相关属性及病人基本信息形成最小数据冗余基于规则的信息抽取技术的研究及其在中医医案文献中的应用 2 的数据。 本文尝试采用基于模式匹配的正则匹配算法。 第一步对文本进行分词、词性标注处理,第二步在模式库的支持下,采用模式匹配算法,最终实现了 机器对医案的“人名”、“出诊时间”、“ 症候 ” 信息的识别,以及实体间关系识别。 论文的主要工作 本文的主要工作包括以下几个方面: 1)综述信息抽取及相关技术方法,主要内容 包括相关概念的介绍,技术专有名词的解释说明,还包括对各种技术的 分析。 2) 重点研究了基于模式的中医医案的信息抽取问题。 构建动词库、模式库。 3)设计并实现了一个基于中医医案的信息抽取原型系统。 该系统提供了一个方法以供用户使用,能够很好的实现对中医医案信息的抽取。 本文的组织结构 本文共分 7 章,每部分的组织如下: 第一章首先介绍了 本课题的课题背景 ,阐述了 课题的来源,目的及意义,说明了课题 的研究内容。 第二章给出了模式自动生成的学习方法以及它们的优缺点。 第三章介绍了中医领域中文文本的特点,提出了信息抽取的任务。 第四章介绍了模式自动生成方法的思想和具体步骤,并给出了实验结果。 第五章介绍了基于模式匹配的信息抽取方法 第六章 完成基于模式匹配的中医医案信息抽取系统,实现了其中的命名实体识别(人名、地名、时间等名词性短语)的工作 第七 章 总结与展望 最后是本文的参考文献,及本文作者对导师和实验室同学的衷心感谢。 北京科技大学硕士学位论文 3 2 信息抽取模式学习 系统 综述 信息抽取模式学习系统分类 为了进行 IE( Information Extraction)模式的学习,人们先后设计过各种 IE模式获取系统,例如 AutoSlog、 PALKA、 CRYSTAL、 LIEP、 AutoSlogTS、 ExDisco、TIMES 等。 根据 IE模式获取系统需要用户辅助工作 方式 的不同,可以把这些系统分为四个类别: 它们为 基于人工语料标注的 IE模式学习系统,如 AutoSlog、PALKA、 CRYSTAL、 LIEP 等。 基于人工语料分类的 IE 模式学习系统,如AutoSlogTS 等。 基于种子模式的自举 IE 模式学习系统,如 ExDisco 等。 基于WordNet和语料 标注的 IE模式学习系统,如 TIMES 等。 下面 分别 介绍这四类系统的工作原理。 基于人工语料标注的 IE 模式 学习 系统 基于人工语料标注的 IE 模式学习系统 的 原理 基于人工语料标注的 IE 模式获取 系统的基本原理是: 使用一种 IE 模式表示方式,人工预先标注训练语料, 接着利用机器学习的方法从训练语料中学出 IE模式。 例如 AutoSlog、 PALAK、 CRYSTAL、 LIEP。 本节详细介绍 AutoSlog 和PALKA 的工作原理。 AutoSlog 是世界上第一个成功实现利用机器学习的方法获取信息抽取模式的系统,由 Massachusetts 开发。 AutoSlog 的核心 就是一个模式学习算法。 对于一个特定的 IE 任务,系统的输入是人工标注的训练语料 ,一套语言模式集(领域无关) 和一个相关领域的语义词典。 系统的输出 是对应案例语句的 IE 模式。 另外,整个统的实现需要 CIRCUS 句法分析器的辅助支持, CIRCUS 句法分析器的功能是自动识别句子中的主语、谓语和宾语等。 最后需要人工对学出的模式进行审定和筛选。 语言模式集(领域无关) 由人工设计而成。 对于不同领域的信息抽取任务,语言模式集并不需要做较大改动。 图 列出了 针对恐怖活动事件用到 的语言模式,以及与它们对应的一条 IE 模式。 基于规则的信息抽取技术的研究及其在中医医案文献中的应用 4 图 2. 1 AutoSlog 采用的 语言表达模式及 IE 模式 这里的语言模式集和 IE 模式的不同之处在于:语言模式是领域无关的,是由人工预先给定的。 而 IE 模式是由该系统自动生成的,是给出的语言模式实例化的结果。 IE 模式用于对一个事件进行信息抽取。 语言模式“ subject activeverb”的含。基于模式的语义信息抽取及应用研究毕业论文(编辑修改稿)
相关推荐
的模糊数字识别方法,以期提高视频监控效果,更好地维护社会治安和人民生命财产安全 第二章, 节主要讲述模糊数字识别模糊数字图像收集, 节模糊数字图像频谱分析特点分析和灰度直方图分析,了解不同模糊程度不同数字的特点。 阐述了通过收集的模糊图像制作不同模糊程度模糊模板的过程, 节讲述匹配识别前待识别模糊数字图像处理方法。 第三章, 节修改模板库。 节主要讲改进匹配算法,算法流程,算法实现,算法仿真。
糊化、模糊推理、反模糊化、知识库组成。 (1)模糊化 所谓模糊化就是先将某个输入量的测量值作标准化处理,把该输入量的变化范围映射到相应论域中,再将论域中的各输入数据以相应的模糊语言值的形式表示,并构成模糊集合。 这样就把输入的测量值转换为用隶属度函数表示的某一模糊语言变量。 (2)模糊推理 根 据事先己定制好的一组模糊条件语句构成模糊规则库,运用模糊数学理论对模糊控制规则进行推理计算
,电阻炉的模型为: ( 29) 在确定了电阻炉的数学模型之后,接 下 来针对电阻炉温控系统研究控制方案,首先可以采用的控制方案是纯 PID控制,它是经典控制理论中最 典型 的控制方法,对 工 业生产过程中的线性定常系统, 大 多都采 用 这种控制方法,它结构简单,可靠性强,容易实现,并且可以消除稳定误差,在 大 多数情况 下能够满足系统的性能要求。 第二个可以采用 的控制方案是模糊控制,由 于
建立与仿真 使用神经网络工具箱的命令行方式建立 使用神经网络工具箱的命令行方式建立和训练概率神经网络主要包括以下常用的指令,如表 31 所示: 表 3 1 常用指令表 指令格式 执行结果 参数意义 n e t =n e w p nn ( P , T , S P R E A D ) 创建一个 概率 神经网络 P : Q 组输入向量组成的 R Q 维矩阵; T : Q 组目标分类向量组成的 S Q
at Enterprise Linux),浏览器(IE、FireFox),网络协议(IPvIPv6),处理器平台(Intel、AMD)和数据库(MySQL、Sybase、Oracle),一共32223=72种硬件平台。 pairwise测试只需要设计如下10个测试,就覆盖了每一种影响因素和另外一种影响因素的所有组合。
运输的发展,离合器还要在原有的基础上不断改进和提高,以适应新的使用条件。 从国外的发展动向来看,近年来汽车的性能在向高速发展,发动机的功率和转速不断提高,载重汽车趋向大型化,国内也有类似的情况。 此外,对离合器的使用要求也越来越高。 所以,增加离合器 的传扭能力,提高其使用寿命,简化操作,已经成为目前离合器的发展趋势。 离合器的功用 离合器可使发动机与传动系逐渐接合,保证汽车平稳起步。 如前所述