google搜索引擎工作原理简介(编辑修改稿)内容摘要:

Indexer 然后将这些 hits 放到一系列的桶 barrels 中,建立了部分排序的好了的正向索引。 Indexer 还分离出网页中的所有链接,将重要的信息存放在 Anchors 文件之中。 这个文件包含的信息可以确定链接的指向和链接的描述文本。 URLresolver 读取 Anchors 文件并将相对 URLs 转换为绝对 URLs,并依次放到docIDs 中。 它再将链接的描述文本放到正向索引,并将 docIDs 与链接的描述文本相对应。 同时,它也产生一个链接 links和 docIDs相对应的数据库。 这个 links数据库将被用于计算所有网页的 PageRanks。 然后,排序器 sorter 从 barrels 中取得按 docID 排序的网页,再将其按照 wordID产生一个反向索引。 Sorter 还在反向索引产生一个 wordIDs 及其偏移的列表。 一个叫做 DumpLexicon 的程序将这个列表结合搜索引擎的词库再产生一个可以被搜索器 searcher 使用的新的词库 Lexicon。 由网页服务器构成的搜索引擎Searcher 利用这个新的词库配合反向索引和 PageRanks 来回答查询。 命中列表 Hit Lists 命种列表 Hit Lists 记录了一系列的关键字出现在一个网页中的信息,包括在网页中的位置,字体的相对大小和字母的大小写。 Hit Lists 占用了正向和反向索引里的绝大部分的空间。 命中分为两类:特别命中 fancy hits 和普通命中 plain hits。 fancy hits 包括了在 URL, 标题 , anchor text, or meta tag 出现的关键字, 所有在其它位置出现的关键字均为 plain hits。 一个 plain hit 由大小写位 1 bit, 字体大小 3bits 和用来表示关键字在网页的位置所组成 12位 bits 信息 (所有位置大于4095 的均表志为 4096)。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。