基于用户行为与本体的查询词扩展研究陈少明硕士毕业论文内容摘要:

共现的单词, ai 表示ti与 C 共同出现的频率,元组集称为概念 C 的伪文档。 给定一个查询 Q,计算伪文档与西华大学硕士学位论文 3 查询 Q 之间的相关度,并对结果进行排序,取得到最高分数的概念来进行查询 词 扩展。 该方法的缺点是要计算出每一对词的共现率来产生概念,生成伪文 档 ,计算的要求比较高,导致查询效率也会有所下降。 文献 [7]提出的统计词典是通过对整个文 档 集中的文 档 上下文进行分析,采用统计的方法,将相关词语分成不同的类别,然后利用这些相关词语扩展初始查询。 局部分析 基于局部分析的查询词扩展主要是利用首次查询结果文 档 中与 原查询词最相关的N 篇文档作为扩展词的来源,这些相关的词语出现在局部 文件集合中。 而并非利用先前计算得到的全局词关系词典。 局部分析主要技术有局部聚类、相关回馈和局部回馈等,相对于全局分析,局部分析的计算量比较小。 Atter 和 Fraenkel[8]于 1977 年最早提出局部聚类方法,其技术是依据全局的聚类算法,首先向搜索引擎输入初始化查询词 Q,得到检索结果集 D;对结果集 D 中的词进行聚类分析,使用聚类中跟初始查询词最相关的词进行查询扩展,再进行第二次检索,明显提高查询准确率。 由于其分析的文 档 数相对较少,从而有效提高 了检索速度。 相关回 馈是最常见的查询词扩展技术,该方法的主要思想是从用户认为相关的 文件中选择重要的词语,然后在新的查询表达式中不断提高这些词语的重要性,希望新的查询能够将相关文 档 与不相关文 档 区分开来。 相关回馈方法的缺点是过分依赖于用户的干涉,如果用户的回馈有误则会大大降低系统的性能。 为了减少用户的直接参与, Shen等 [9]2020 年在隐含相关回馈方法的基础上,提出了一 种基于统计语言模型的上下文检索算法,并将所有用户查询和用户点击 文件的摘要用于文 档 的重新排序,获得了很好的检索效果。 S. Jung 等 [10]在 2020 年提出将点击的网页作为隐含的相关回馈,基于人工标注的相关网页数据集的实验表明,把所有点击网页看作是用户的相关回馈,获得很好的准确率和召回率。 局部回馈法是在相关回馈的基础上发展起来的,局部回馈解决了相关回馈必须与用户交互的问题,自动将初始查询结果中的前 N 篇文档作为查询扩展源,不需要用户的干预。 它假设初次查询的前 N 篇文章认为是相关文章,并以此为依据对查询进行扩展。 Bucklev 和 Salton[11]提出的局部回馈方法结合了相关回馈和局部分析两种方法,它将初次查询检索出的前 N 篇文 档 认为是相关的,并以此为 依据对查询进行扩展,解决了相关回馈必须与用户交互的问题。 局部回馈方法的缺点是当初次查询后排在前面的文 档 与原查询相关度不大时,局部回馈会把大量无关的词加入到查询,从而严重降低查询精度,甚至有低于不做扩展优化的情形。 基于用户行为与本体的查询词扩展研究 4 局部上下文分析 Xu和 Croft[12]提出了局部上下文分析方法。 该方法成功地解决了全局分析方法中计算 量 大和上述基于局部回馈的查询扩展中对 N 敏感的问题。 局部上下文分析法在整体上是一种局部分析方法,但利用全局分析的词语共同出现的思想避免了向原查询加入不相关的词。 该方法基于名词词组而不是 简单的关键词,并把它作为文 档 的概念,为了查询扩展,从位于排序前面的文 档 中选择一些与查询词语同时出现的概念作为扩展词,不用文 档 ,而是用段落如固定长度的文本来确定同时出现的信息。 局部上下文分析的假设是与所有的查询关键词同时共现的词汇作为查询扩展词。 令初始化查询为 Q(Q={wl,W2, „ : wf))被检索的文 档 集为 C,其中排在最前面的与查询 Q 有关的 n 篇文 档 S=( P1,P2,„, Pn), 选择与初始查询关键词最相关的词作为扩展词。 基于用户日志 用户的查询日志是众多用户使用搜索引擎时多次“回馈”结果的积 累,对它的分析相当于使用大量用户的相关回馈,可以收集到查询词、返回顺序、点击顺序、网页 URL等用户行为信息,对查询词扩展更具普遍性和统计意义。 Hang Cui 等 [13]提出了基于用户查询日志的查询扩展统计模型,它的基本思想是:在用户查询记录的基础上建立用户查询空间,在文 档 集上建立文件空间,根据用户日志将两个空间中的词,按照用户提交某个查询所点击的文章以条件概率方式连接起来。 当新查询到来时,系统选取当该查询出现时被选择成为扩展用词的条件概率最大的文 档 用词加入查询。 显然,该方法从大量 查询 中得到的“先验知识 ,远比个别用户的临时判断或系统在毫无人为参与的情况下得到的结果更为准确,并且将关于用户回馈的学习放在检索之前,省去了初始检索和用户参与的代价。 基于词表 词表是指一套词组或者词语的集合,有时也包括集合中词间的各种关系。 有两种方式人工词表:一种是普适性的、基于词语的词表,如国外通用本体 WordNet,国内知网HowNet 等,词表中含有语义联系,如同义词或者反义词,整体与部分等语义关系。 另一种如美国国会图书馆主题词表 (Library of CongressSubject Headings)和 MeSH 医学主题词表等,它是面向信息检索的、基于词组的词表。 这些词表包含检索词之间的关系有:上位检索词、下位检索词、替代词和关联词,构造这些词表的代价非常昂贵,需要投入很大物力财力及很长时间才能初步成形,之后不断完善。 以 WordNet 为例,是在 Gee Miller 领导的普林斯顿大学研究小组基础上发展起来的一个手工词表,可以以机读的方式获得。 在 WordNet 中,词语进行了分类,类中每个节点都代表了单一意思的一个同西华大学硕士学位论文 5 义集。 基于不同的词性有四种不同的类别,同时在这些类别之间定义了许多相关联系。 使用 WordNet 来进行查询扩展时,查询中的所有关键词都使用同义词或者上下位词等的结合来扩展。 很多的研究学者尝试使用 WordNet 中定义的联系来进行查询扩展。 知网 (HowNet)是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为内容的常识知识库,是最为出名的采用汉语描述的本体。 它通过义原(即基本的不可再分的语言单位,语义中的原)的组合来表示各种各样的单纯或复杂的概念,以及各个概念之间,概念的属性和属性之间的关系 [14]。 随着研究的深入,研究者们提出了许多种不同的查询 词扩展方法。 , der Weide 于 2020 年提出了一种混合的方法,设计了一个基于全局信息的初始查询结果,同时产生一个局部的概念上的总结,使用形式概念分析理论,利用概念格 描述由 文件、关键词及其之间的关系组成的概念之间的关系。 这种方式有效地刻画了词与词之间的搭配,减少了单个词所具有的多义性,从语境的角度研究了查询词扩展技术 [15]。 Ahmed Abdelali, Jim Cowie, Hamdy S. Soliman 等于 2020 年提出了一种使用潜在语义分析机制 (Latent Semantic Analusis, LSA) 的自动查询词扩展方法 [16]。 张敏,宋睿华,马少平提出了根据词之间的语义关系进行扩展和替换的文 档 重构方法,实现了同一概念信息的聚集,并进一步研究给出一种有效的实时文 档 重构检索策略,解决了文 档 重构方法在实际应用中的问题 [17]。 Dongfeng Chen, Rada Chirkova, Fereidoon Sadri 等人中提出使用被规则化或者被重构的物化观点( views)重构优化相关查询 [18]。 . D237。 azGaliano, Mart237。 nValdivia, . Ure241。 aL243。 pez 通过使用医学术语扩展用户查询词的方法 , 运用医学本体 MeSh 改善医学信息检索 [19]。 Lixin Han 等于 2020 年提出了 HQE 的扩展方法,该方法结合本体与神经网络来提高查询词扩展的性能。 本体是用来分析语义关系以便发现相同用户,而神经网络则是用来获得最多相关文 档 [20]。 MingYen Chen 等于 2020 年提出一种基于语义的检索机制,分析网页内容的语义特性,开发一个能代表网页内容语义特性的语义模式,然后通过语义延伸分析用户查询词和拓展查询词潜在的语 义,可以识别更多匹配的语义特性,最后,通过扩展查询词向用户提供更准确的信息 [21]。 Lourdes Araujo 等于 2020 年分析传统查询词扩展算法中词与词之间关系的不足,提出一个新颖且简单的方法来表示扩展查询词,改善这种不足,然后通过遗传算数来优化查询词,达到提高查询准确率的目的 [22]。 本体研究现状 所谓本体,最著名并被广泛引用的定义是由 Gruber 提出的“本体是概念模型的明确的规范说明” [23]。 本体是捕获相关 领域的知识,提供对该领域知识的共同理解,确定基于用户行为与本体的查询词扩展研究 6 该领域内共同认可的词汇。 并从不同层 次的形式化模式上给出这些词汇 (术语 )和词汇之间相互关系的明确定义。 简言之就是一种能够相互理解的约定, 像词义消歧一样。 而本体论也是一个重要的语义技术,它是作为一种概念化的说明,是对客观存在的概念和关系的描述。 近十多年来,本体论的研究日益成熟,也已经远远超过了哲学的范畴,和信息技术(例如:面向对象系统)、知识工程及人工智能都有着密切的关系。 尤其本体论最近在 Web 上的应用直接导致了语义 Web 的诞生,企图解决 Web 信息共享中的语义问题,给 Web 带来了勃勃生机和无限遐想 [24]。 在知识工程领域中本体分为领域本体、通用 本体、应用本体、和表示本体四类。 国内外对本体的研究具体体现在四个方面 : ( 1)基于结构化数据的本体学习。 ( 2)基于非结构化数据的本体学习。 ( 3)基于半结构化数据的本体学习; (4) 本体构建工具[25]。 基于结构化数据的本体学习。 结构化数据是把数据按一定规则组织起来,主要包括关系数据库或面向对象数据库中的数据。 随着数据库在信息管理领域的广泛应用,大量的数据通常存储在数据库中。 Lawrence 和 Giles 在 1998 年时估计互联网上有 80%的内容存储在 Hidden Web 中 [26]。 所谓的 Hidden Web 中的数据就是存储在数据库中,而且这些数据一般都是面向主题 (领域 )的。 因此,如何利用数据库中丰富的数据构建本体是一个很有意义的研究课题。 在关系模型中,实体以及实体间的联系都是用表来表示的。 所以,无论是概念的获取还是概念间关系的获取 ,首先必须区分出哪些表是用来描述实体的,哪些表是用来描述实体间 联系的,然后才能将实体信息映像为本体中的概念,将联系信息映像为本体中的关系。 Johannesson[27]提出本体的构建方法,把将关系模型转换为一个概念模型,该概念模型实际上是一个扩展的实体 关系模型的形式化表 示,然后根据与用户的交互,对该概念模型进行修订生成最终的本体。 Stojanovic 等人 [28]通过分析数据库中的表、属性、主外键和包含依赖关系,给出了一组从关系模型到本体的映像规则。 基于这些规则能够直接得到一个候选本体,然后可以进一步对该候选本体进行评价和精炼,生成最终的本体。 基于非结构化数据的本体学习。 非结构化数据是指没有固定结构的数据。 其中,纯文本是 Web 中大量存在的一类非结构化数据,也是最重要的一类,可以用来获取本体的数据源。 目前,基于非结构化数据的本体学习技术的研究主要集中在从纯文本或从用户查询 词中获取本体。 纯文本依据一定的造句法表达特殊的语义,使得读者可以基于一些背景知识来理解其中的含义。 然而,由于缺乏一定的结构,要使机器能够自动地理解纯文本并从中抽取出所需要的知识,则必须利用自然语言处理 (NLP)技术对其预处理,然后利用统计、机器学习等手段从中获取知识。 陈文亮等人 [29]提出利用 Bootstrapping 的西华大学硕士学位论文 7 机器学习技术,从大规模无标注真实语料中自动获取领域词汇。 郑家恒等人 [30]提出采用非线性函数与“成对比较法”相结合的方法,综合考虑位置和词频两个因素,给出候选词的权重,实现了关键词的自动抽 取。 Sangno Lee 等人 [31]基于 WordNet 本体去除数据意义的模糊性,通过对上下义关系的分析,提出了概念层次的自动生成方法。 基于半结构化数据的本体学习。 半结构化数据是指具有隐含结构,但缺乏固定或严格结构的数据 [32]。 Web 中的半结构化数据很多。 例如大量的 XML 格式和 HTML 格式的网页,以及它们遵循的文 档 类型定义 (XML schema 或 DTD),还有越来越多的用 RDF 标注的网页,都可以作为本体学习的数据源。 Papatheodorou 等人 [33]提出了从 XML 或RDF 格式的文 档 中获取概 念间分类关系的方法,抽取出表示每篇 文件内容的关键词,然后使用聚类技术,将文 档 集分成同组内的文 档 内容相似的不同组;接着,使用统计的方法选出最能表达每组 文件内容的关键词;将这些关键词作为本体中的概念,并根据先前聚类的结果给出概念间的分类关系。 Volz 等人 [34]提出将这些半结构化数据映像成一棵语法树,该语法树是一个四元组:非终结符集,终结符集,开始符集和规则集;然后使用一些规则将这些非终结符集和终结符集中的元素映像为本体中的概念和关系。 本体构建工具。 目前,本体构建工具不少于 50 种 [35],其中较成熟的主要有DAMLImp(AP。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。