华中赛论文基于层次分析法与多维数据方体的互联网搜索引擎的排名与设计(编辑修改稿)内容摘要:
问题二的建模与求解 模型 II 的分析 对于问题( 2),通过对于通用中文搜索引擎的了解 [8],发现按照信息搜集方法和服务提供方式的不同 ,大致可分为基于 Robot 的搜索引擎和基于 Director 的搜索引擎。 但两者都具有较大的片面性,前者查全率高但查准率较低,后者查准率高但查全率较低。 因此 ,本文希望开发一种新型的搜索引擎即具有 Robot 更新及时、无须人工干预的特点 ,又具有 Dieroctr 信息准确的特点 ,这就是面向主题的、 基于多维数据的 中文人名搜索引擎。 模型 II 的建立与求解 模型 II 的具体建立过程如下: 构建姓氏网页数据集 (一)搜集并抓取所有与输入姓氏相关的网页 构建中文人名数据库(附录 ) ,从而在搜索引擎中将所有与所输入姓氏相关的网页搜集并抓取下来 ,为组建多维数据方体奠定内容基础。 (二)去除与主题无关的噪声数据 网页中除了与所查找内容相符的信息外,通常还包含很多“噪音”内容,如与主题内容无关的导航条、 广告信息、版权信息以及调查问卷等内容。 因此,下一步操作为去除网页中与主题无关的噪声数据。 网页是由若干内容块组成的 ,而内容块是由特定的标签规划出的 (称之为容器标签 ), 9 常用的容器标签有 table、 tr、 p等。 本文首先对网页 HTML 规范中的标签按照功能进行分类 ,进而提出更加适合网页净化的标签树的构造方法 [10]。 由于网页净化是以内容块为单位进行保留和删除 ,因此 ,依据容器标签构造标签树中的结点是较为合理的。 而其它类型的标签信息可以作为它所在 的内容块的属性而存在。 标签树构造完成后 ,网页净化过程就变为对标签树中结点的剪裁。 ( 1)算法相关公式 根据以上分析 ,网页净化过程是在网页内部以内容块为单位进行重要性和相关性评价 ,而不是网页间的比较。 因此我们使用如下的特征项权值计算公式。 ( 1) 其中 ,BWeight 表示网页中内容块的权值 ,它的值由一个内容块中的重要标签来决定; BN 表示网页中内容块的总数; BTfji 表示关键词 j 出现在内容块 i 中的词频。 另外 ,我们采用的相似性计算公式是较为常用的计算对应向量的 inecos 距离。 给定向量, xxxXxxx nnX ,2,1,21 ,, ( 2) 分析姓氏网页数据集 网页数据集的分析包括信息提取、姓氏文档切分词处理、补偿式信息提取的主题文本分类、相似文档的聚类和姓氏网页多维数据集的构建等。 (一)信息提取 由于我们所设计的中文人名搜索引擎的最终目标是实现人物职业、居住地址、工作单位的层次树状结果的显示,因此 ,在对文档进行了预处理也就是消除文档噪音之后 ,首要任务就是在所处理的网页文档中将人物的职业、居住地址、工作单位三个属性从文档 10 中分离出来 ,为后续的工作奠定基础。 定义 l:知识库 D:由各个知 识表构成。 知识表是信息提取所需要的涉及到特定领域的词典以及提取模式库。 定义 2:姓氏网页数据集 M:姓氏网页数据集合是从 Inter上抓取包含姓氏的网页构建而来。 ( 1)建立知识库 D; ( 2)根据搜索的中文人名 ,在上一步中抓取到的姓氏数据集合 M 中搜索 ,得到所有相关网页内容 ,定义网页内容集合为 },{ 21 nW ; ( 3)对每一个 wj 进 行网页去噪处理 ,得到净化后的文本集合 },{ 21 ttt nT ; ( 4)对每一个 Tj 进行分句 ,得到句子集合 },{ 21 sisisi nS ; ( 5)根据文本分类标识库 ,将文本集合 T 分为两类 :个人介绍类 C1和个人活动类 C2。 对句子集合 S进行文本分类判定 ,确定 S属于 CX 类; ( 6)对句子 Sjj 进行分词标注 ,根据标注词性和相关知识库从句子集合 S 中过滤掉不相关的句子 ,提取相关的句子集合为 },{ 21 csicsicsi mCS ,其中 mn 或者 mn; ( 7)根据针对 CS 类的信息提取方法 ,对 CSj 进行信息提取 ,提取出关于人的属性元组 CKAKJKBj , ,存入数据库中。 (二)补偿式信息提取的主题文本分类算法 定义 1:假设 TH是某个主题 , },{ 21 MMMM n 是主题 D的属性集合 ,M为主题TH 的知识库;主题可以按照某一属性划分 ,记做 )( MTHK MM jj ; 划分 ),}(,{ 21 n u l lMP MMMMMM ijjm ,构成了 TH 的一个特定划分 ,记为 PTH ,P 将主题 TH 划分的等价类称为知识 P的基本概念。 定义 2:关于人物主题的姓氏网页文档集 Q来自 WWW的搜索结果 ,M={职业 ,居住地点 ,工作单位 ,身高 ,体重 ,肤色 ,头发 ,年龄 ,政治面貌 ......},构成了主题人物的知识库。 通过信息 嫡对知 识简化 ,针 对网络 文档的 特点 ,得到 了关于 人物 主题的 核知 11 识 : pcore {职业,居住地址,工作单位 },这意味着通过 P 可以将关于人的主题的文档进行分类。 定义 3 对于主题 文档 D, A AAAA nD ,3,2,1 是文档 D 拥有的属性集 ,如果ADPcore )( ,则称文档 D 是可区分的,否则为不可区分的。 假设所有姓氏网页文档 U以 pcore {职业,居住地址,工作单位 }进行信息提取。 将所有文档分为可分辨文档 UIND 和不可分辨文档 UND UU NDINDU 。 对 U 标识其属性号 ,对可分辨文档 UIND 进行划分 ,得到: },{ 21 cccU mIN D pc or e ,即 m个等价类。 然后,用最邻近学习算法计算。 其具体计算方法为: ( 3) 其中, k 表示类 Cj 中文档的个数 ,VCj 表示文档的特征失量 ,CCj 表示类 cj 的特征矢量。 文本特征矢量采用 TF*ITF 计算 : VVVVtnttt321 s ims ims ims ims ims ims ims ims imPPPnmnnmmcmcc21222211121121 ( 4) 其中, 的运算法则为 VVVVsimckcktjtjjk , )1,1( mknj ,在矩阵中求出每行的最小值 simsim jkmkm in11m in ,记取最小值的下标为 i ,也就是文本 tj 与 ci 最相似。 12 设定阈值 M1 ,若 Msim 11min ,则将其归于 Ci 文档类中 .并更改其 tj 的属性标识为Ci 的属性标识 ,补偿一部分分类。 (三)语句 词条矩阵聚簇式动态增长聚类算法 通过补偿式信息提取的主题文本分类算法得到了职业、居住地址、工作单位三个人物属性的不同分类 ,然而还会存在部分人物属性不完全的网页无法被归类到相应的划分当中去。 因此,我们就需要应用语句 词条矩阵聚类算法 ,按照内容聚类 ,将剩余的网页聚集到相应的分类当中。 下面 ,我们对这一算法做比较详细的分析说明。 定义 1:假定有 d 篇文档 ,由 n 个单词构成 ,aji 是矩阵的元素点 ,tji 是第 i 个单词在文档 j 中出现的次数 ,即 TF。 di 是出现第 i 个单词的文档数目。 那么 ,则有 : ( 5) 其中 ,我们用词频 TF和反向词频 IDF 的乘积 ,来描述单词的权值。 定义 2: 假定 d(x)。华中赛论文基于层次分析法与多维数据方体的互联网搜索引擎的排名与设计(编辑修改稿)
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。
用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。