基于本体的语义检索系统研究内容摘要:
的内容进行了总结概括 ,综合分析了语义检索的优势和目前尚 未解决的技术难题 ,并展望了语义检索的发展前景。 第 2章 Web 信息检索研究现状 信息检索的定义和基本原理信息检索 (Information Retrieval)是指从信息集合中识别和获取所需信息的 过程及其所采取的一系列方法和策略 ,其核心在于信息的表示、存储、组织和访 问。 从实现过程上来看 ,广义的信息检索包括信息存储和信息检索两个方面。 信 息存储完成信息的收集、分析、选择、标引、描述及组织 ,并对其进行有序化以 供查找。 而检索过程则是借助一定的检索工具和系统 ,从大量信息中查找出用户 所需特定信息的过程。 IR 起源于图书馆的参考咨询和文摘索引工作 ,经历了手 工检索、计算机检索两个阶段 ,随着网络的发展 ,其对象也扩展为海量、开 放、 动态、分布、异构的 web资源。 本文集中论述面向 web的信息检索技术。 信息检索的基本原理如下所述 : (1)将异构信息资源转换为规范的格式 ,通过文档特征提取对文档进行标 识和索引 ,并按照一定方式组织和存储信息集合。 (2)将用户的检索请求转换为规范格式的检索提问标识。 (3)将检索提问标识与存储在检索系统中的文献特征标识进行比较 ,特征 一致的信息则返回给检索者。 因此 ,信息检索系统中昀关键的问题就是 :如何预知检索到的文档和用户请 求是否相关 ?通常系统会采用某种排序算法 ,将检索到的文档按照相关度 大小排 序后反馈给用户。 相关反馈 检索结果 对查询表达式 生成查询表达式 文档表示 建立索引 检索 进行分析处理 用户需求 文 档 匹配过程 图 21 信息检索的基本原理 检索效果是指利用检索系统 (或者工具 )开展检索服务时有效性 ,它直接反 映了检索系统的性能。 目前被广泛采用的检索效果量化评价指标主要包括查全率 (Recall Rate)、查准率 (Pertinence Rate)、漏检率 (Omission Rate)和误检率 (Noise Rate)几个指标。 其中查全率和查准率是昀主要的两项指标。 ?查全率 (R) 被检出相关文档数 /系统中的相关文档数 *100% ?查准率 (P) 被检出的相关文档数 /被检出的文档总数 *100% 查准率是衡量信息系统拒绝非相关信息的能力的量度。 查全率是对所需信息 被检出程度的量度 ,用来表示信息系统能够满足用户需求的完备程度。 而查全率 的误差就是漏检率。 查准率的误差就是误检率。 上述量度标准在网络信息检索环境已经不能满足评价要求 ,因此人们又引入 了另外一些效果评价指标 ,例如 :索引数据库的规模与质量、信息搜集方法、信 息更新频率、响应时间、返回结果的有效性 (链接质量、 是否过时 )等指标。 这 些新的评价标准对信息检索效果提出了更高的要求。 目前的信息检索技术主要分 3 类 : 全文检索 (Text Retrieval)、数据检索(Data Retrieval)和知识检索 (Knowledge Retrieval),这三者的比较如下表所示 : 表 21 几种检索方法的对比 分类 特点 缺点 把用户的查询请求和全文中的每一个词 全文检索 虽然可以保证查全率 ,但是查准率大 进行比较 ,不考虑查询请求和文件语义 (Text retrieval) 大降低。 上的匹配。 查询要求和信 息系统中的数据都遵循一 性能取决于所使用的字段标识方法和 数据检索 定的格式 ,具有一定的结构 ,允许对特 用户对方法的理解 ,具有很大的局限 (Data retrieval) 定字段检索。 需要有标识字段的方法。 性 ,支持语义匹配的能力较差。 基于知识的、语义上的匹配 ,在查准率 知识检索 (Knowledge 和查全率上有更好的保证。 是信息检索 ?? retrieval) 的重点 ,特别是面向 Web信息的知识检 索的重点。 全文检索和数据检索从本质上说都属于基于关键字匹配的检索技术 ,在查全 率和查准率方面都 有一定的局限性 ,因此 ,采用了基于语义知识匹配技术的知识 检索 ,因其检索效果更好而成为了当前信息检索领域的研究重点。 主要的 IR 模型传统信息检索模型中 ,昀经典的有布尔逻辑模型、向量空间模型和概率模型 三种 ,现分别叙述如下 : (1)布尔逻辑模型 (Boolean Model) 布尔逻辑模型是基于集合论和布尔代数的一种简单检索模型 ,该模型运用布 尔代数方法 ,用布尔表达式表示用户提问 ,通过对文献标识与提问式的逻辑比较 来检索文献。 布尔逻辑模型中 ,文档集合 D表示为 :D(d1,d2,d3,„ ,dn) ,其 中 i1, 2,„ ,n。 而每个文档 di 用一组标引词 Ti 表示 ,Ti(ti1,ti2,ti3,„ ,tim), tij 则是从文档 di 中提取的特征词。 布尔检索的操作符为 Not、 And、 Or,检索者 使用布尔代数的方法表达检索请求。 例如 : “计算机应用” (puter application) 这个检索请求可以表达为 (puter ∧ application)。 布尔模型具有简单、易理解、易处理优点 ,所以在信息检索系统中得到了广 泛的应用。 但由于布尔模型对于检索过程而言 ,一篇文档只有相关和不 相关两种 状态 ,缺乏相关性排序 ,模式过于僵硬。 (2)向量空间模型 (Vector Space Model)向量空间模型是近年来在信息检索中使用昀为广泛且效果昀好的一种模型。 该模型将文档看作是由一系列相关独立的特征项词条 (t1,t2,t3,„ ,tn)所构 成的 ,对于每一个特征项根据它在文档中的重要程度赋给其一定的特征权重 wj, (w1,w2,„ ,wn)反映了每个特征项的权重。 将特征项 (t1,t2,t3,„ ,tn) 作为 n 维坐标系中的坐标轴 ,从而将文档集合转化为一个向量空间 ,文档映射为 空间中的一个点 ,因 此 ,文档信息的匹配问题就转化成了向量空间中向量匹配问 题 ,两个文档之间的相关度大小也可以用向量距离来衡量。 文档D1(w ,w ,„ ,w ) 1 2 m 特征项 2 文档 D2(w ,w ,„ ,w ) 1 2 m θ 查询 q j 特征项 1 特征项 3 图 22 向量空间模型 与布尔模型相比 ,向量空间模型的优点在于引入了特征项权重 ,这些权重反 映了文档与检索请求的相关程度 ,并且支持部分匹配以及查询相关度排序。 因此 VSM 在检索领域得到了广泛的应用。 (3)概率模型 (Probability Model) 概率模型基于概率排序原理 ,即 :给定一个检索请求 q以及文档集合 D,该 模型假定文档应该根据自身与提问的相关概率排序输出。 概率检索模型就是利用 概率论的原理 ,通过赋予标引词概率值来表示这些词在相关文献集合或无关文献 集合中的出现概率 ,然后计算某一给定文献与某给定检索请求相关的概率 ,昀后 据此做出检索决策。 概率模型基本上是一种基于贝叶斯决策理论的自适应模型 , 其提问式是由系统通过相关反馈来构造一个决策函数来表示信息提问。 给定提问 Q,则文献 D的相关 概率为。 根据 Bayes 定理 ,可用下 Pr| el D 式求值 : Pr| el DPrel Pr| el D PD 其中 ,P D PD|relPrel +PD|nrelPnrel 表示文献 D 作为相关文献 或无关文献出现的概率。 Prel 和 Pn rel 分别代表某一给定文献相关或不相关的 先验概率。 PD|rel和 PD|nrel则代表文献 D属于相关文献集合或无关文献集 合的概率。 概率模型的优点在于文档可以按照相关概率递减的顺序计算 Rank,但是需 要在开始就当文档集合划分为相关和不相关两个集合 ,具有一定的不科学性。 除了上述几种经典的检索模型以外 ,还有其他一些模型 ,例如 :模糊集合模 型、神经网络模型、浏览模型等。 由于篇幅限制 ,不再进一步介绍。 搜索引擎的发展与分类搜索引擎技术是传统信息检索技术在 Web 环境中的应用。 搜索引擎是一种 帮助用户在 Inter 上查询信息的搜索工具 ,它能够以一定的策略在 Inter 中 搜集、发现信息 ,对信息进行理解、提取、组织和处理 ,并为用户提供检索服务 , 从而起到信息导航的作用。 由于搜索引擎具有巨大的商业价值和学术研究价值 ,很多公司都投 入大量资 金和人力物力进行搜索引擎的开发 ,各具特色的搜索引擎产品不断涌现 ,功能越 来越强大 ,提供的服务也越来越全面。 与此同时 ,各大科研机构和大学也都纷纷 成立专门小组开展对搜索引擎相关技术的学术研究。 就商业产品而言 ,搜索引擎 的发展经历了第一代和第二代 ,目前正向第三代发展。 第一代搜索引擎中的代表 有 :Altaviasta、 Infosee。基于本体的语义检索系统研究
相关推荐
安全受到了一定程度的威胁。 食品企业诚信的缺失主要表现在: 由于我国现阶段法制尚存某些缺憾,市场秩序不规范和管理的不到位,给一些法律意识淡薄的食品企业提供了可乘之机。 这些企业就利用市场存在的这些漏洞来采取相对应的措施发展自身企业,从而获利。 其中,他们使用虚假或 不能兑 6 现的承诺来欺骗消费者,对做出的虚假承诺不仅不能兑现,而且对由此引起的后果推脱责任。 他们违背了市场竞争的诚信原则
由谈判小组依据应谈人所提报的 2020 年以来 信誉证书、获奖证书、类似业绩 等证明材料原件,由谈判小 组在 13分之间 统一 评价打分,未提供或提供的材料无效的得 0分。 ( 六 )项目经理的资历、业绩、获奖情况 : 3分 根据应谈人提供的该项目经理 2020年以来 类似 项目施工业绩 证明材料 , 由评委在 13分之间统一评价打分。 未提供的或提供材料无效的,得 0分。 ( 七
鼓励学生利用信息手段主动学习、自主学习,增强运用信息技术分析解决问题能力。 构建国家教育管理信息系统 制定学校基础信息管理要求,加快学校管理信息化进程,促进学校管理标准化、规范化。 推进政府教育管理信息化,积累基础资料,掌握总体状况,加强动态监测,提高管理效率。 整合各级各类教育管理资源,搭建国家教育管理公共服务平台,为宏观决策提供科学 依据,为社会公众提供公共教育信息
11。 lie=01000110。 when 001011=hang=11101111。 lie=01001010。 when 001100=hang=11110111。 lie=01010010。 when 001101=hang=11111011。 lie=01100010。 when 001110=hang=11111101。 lie=01000010。 when
线。 民营航空公 司主要面临市场竞争威胁和政策威胁,除此以外还受到许多制约因素。 比如,机场方面的限制、定价方面的限制、航油结算方面的限制等等。 (1)成本优势。 航空公司的成本可分为刚性成本和柔性成本两大块。 刚性成本主要包括飞机购买成本、航油成本、起降服务费以及飞机维修保养费。 柔性成本主要包括员工工资福利费用和公司管理费用。 刚性成本在目前的经营环境下很难降低