nutch开发环境及搭建(编辑修改稿)内容摘要:

rawled 的文件夹,同时还生成一个名为 的日志文件。 利用这一日志文件,我们可以分析可能遇到的任何错误。 另外,在上述命令的参数中, dir 指定抓取内容所存放的目录, depth表示以要抓取网站顶级网址为起点的爬行深度, threads 指定并发的线程数。 5.试验 结果及 分析 ( 1) . 同 级目录下生成 文件夹 crawled 和文件 : Crawled 文件夹目录结构如下图: Crawled 目录下生成了 4 个文件夹: crawldb linkdb segments indexes 查询相关资料及测试结果可以看出 , nutch 抓取页面并把抓取回来的数据做成索引的过程中,建立和维护了几个数据结构存于磁盘上, crawldb 和 linkdb,我们称之为 webdb, 还 WIDTH INTERNATION 6 有 segment ,index. webdb 是一个特殊存储数据结构,用来映像被抓取网站数据的结构和属性的集合。 webdb 用来存储从抓取开始(包括重新抓取)的所有网站结构数据和属性 ,而且 webdb只是被抓取程序使用,搜索程序并不使用它。 webdb 存储 2 种实体:页面和链接。 页面表示网络上的一个网页,这个网页的 url作为标示会被索引,同时建立一个对网页内容的 md5 哈希签名。 跟网页相关的其它内容也被存储,包括:页面中的链接数量(外链接),页面抓取信息(在页面被重复抓取的情况下),还有表示页面级别的分数 score。 链接 表示从一个网页的链接到其它网页的链接。 因此 webdb可以说是一个网络 图 ,节点是页面,链接是边。 segment 是网页的集合,并且它被索引。 segment 的 Fetchlist 是抓取程序使用的 url 列表,它是从 webdb 中生成的。 Fetcher 的输出数据是从 fetchlist 中抓取的网页。 Fetcher 的输出数据先被反向索引,然后索引后的结果被存储在 segment中。 Segment 的命名是日期加时间, 14位表示,因此很直观的可以看出他们的存活周期。 segment 的生命周期是有限制的,当下一轮抓取开始后它就没有用了。 默认的重新抓取间隔是 30 天。 因此删除超过这个时间期限的 segment 是可以的。 而且也可以节省不少磁盘空间。 indexes 是反向索引所有系统中被抓取的页面,他并不直接从页面反向索引产生,它是合并很多小的 segment的索引中产生的。 Nutch 使用 Lucene 来建立索引,因此所有 Lucene 相关的工具 API 都用来建立索引库。 ( 2) .分析 log: 内容如下: crawl started in: crawled rootUrlDir = threads = 4 depth = 2 Injector: starting Injec。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。