火车头采集器菜鸟使用手册(编辑修改稿)内容摘要:

的地址就添加完 成了。 那么下边,我们来设置区域列表。 我们先设置第一个。 “ 文章内容页面地址必须包含。 不得包含。 ” 我们随便点开 这个网址中 的两篇文章,看下 URL。 就是文章地址。 发现以上两个地址。 那么他们其中只有 红色部分在变动。 那么,文章内容必须包含。 我们写 这样就可以 ,那么我们点击 “ 开始测试网址采 集 ” —— OK 眼力 精准分享论坛 这个时候,我们点开网站前边的 +号 发现,其实网址已经采集成功了。 其中的并不需要填写。 这是为什么呢。 因为我们采集的页面 中的文章地址,就是 红色部分都会变动。 或者有可能变动。 所以我们加上通配符 , 所以我们不用填写 —— OK 眼力 精准分享论坛 这个,也可以采集成功。 那么,为了让大家更直白的了解火车,我们还是写一下。 那么我们打开 这个地址,在页面中,点 击右键,选择 “ 查看源文件 ” (因为不好截图。 ) 发现上边的东西出现,都是一些猥琐的 html代码。 我们怎么定义文章地址的区域呢。 看下图 —— OK 眼力 精准分享论坛 我们复制页面中的 “ 筛选 ” 然后在页面源码中查找下,, 那么自然,下边的,就是文章地址的区域咯。 那么我们在这里,填写什么呢。 我们要填写一个 “ 唯一 ” 的东西。 就是这个页面独有的一个 ,并且在文章地址上方的一个代码。 —— OK 眼力 精准分享论坛 如上图。 我们选择这段 div id=pgt class=bm bw0 pgs cl 代码。 然后我们复制 div id=pgt class=bm bw0 pgs cl 这段代码,在我们打开的源文件中,向下查找看,看看有没有相同的。 好消息。 没有相同了。 那么我们在 填写 div id=pgt —— OK 眼力 精准分享论坛 class=bm bw0 pgs cl 那么 这里怎么填写呢。 其实一样。 我们给下看看源码。 我们向上查找下。 —— OK 眼力 精准分享论坛 OK....那么。 就填写. 就 OK。 照着这样填写就 OK了。 其实这一步是多此一举。 只是教大家怎样填写罢了。 我们随便选中一条地址,双击鼠标左键。 直接跳到第二部,采集内容规则。 —— OK 眼力 精准分享论坛 在这里,我们点击一下测试按钮。 发现,标题和内容都采集到了,但是。 在标题上,我们把目标站点的网站主标题也采集过来了。 而内容。 是把整个页面乱七八糟的东西都采集过来了。 那么。 我们开始设置更精确的采集规则。 擦。 首先,我们设置标题。 现在默认的采集标题是 又出来个史上最强大的搜索引擎。 无聊扯蛋 张家口市姚家房镇及周边地方娱乐门户站 Powered by Discuz! —— OK 眼力 精准分享论坛 我们需要 的标题是红色部分。 那么。 我们双击上图被圈住的地方。 那么我们需要设置的地方就是 那么。 我们现在采集到的标题是 —— OK 眼力 精准分享论坛。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。