通用web信息采集系统论文内容摘要:
统的某一条件时停止。 具体实现流程:将起始地址列表按行读取存入存储 url 的 pages 表中,在未超过等待 时间限制的控制条件下,循环从表中取出一组 url 和 depth,判断一下是否取到链接,如果没有取到链接,直接退出,如果取到了链接,那么判断是否超出递归深度,如果超出递归深度,则停止此次循环,进入下一次循环,如果没有超出递归深度,则下载网页,提取网页中的链接,判断链接,如果链接既符合访问规则又不重复,则按规则提取信息,将链接和信息加入 pages 表中,原链接深度基础上加 1 填进表中。 用 dirty 标识此链接是否已被访问过,如果被访问过标识 true,在下次提取链接时就会跳过此条链接,反之没被访问的标识为 false。 提取 有效链接 从网页中提取链接时,会出现不同网页中存在相同的链接,如果在此处不加判断,会降低采集效率,那么在链接放入数据库之前都会有是否是重复链接的判断,在提取过程中发现一种情况,不同的链接指向同一个网页,降低采集效率,为避免这个情况,采集的链接在进行下载等操作之前做 uri = URI。 parse(url)这样的操作,提取 url的有效部分。 6 关键技术及复杂性分析 网络爬虫 网络爬虫是一个自动提取网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。 它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。 传统网络爬虫的工作流程:网络爬虫从一个或若干初始网页的 URL 开始,获得初始网页上的 URL,在抓取网页的过程中,不断从当前页面上抽取新的 URL 放入队列,直到满足系统的一定停止条件。 本系统开发的网络爬虫从一个或若干初始网页的 URL 开始,下载网页,根据一定的规则提取链接,并将其放入等待抓取的 URL 队列。 然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页 URL,并重复上述过程,直到达到系统的某一条件时停止。 另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引 ,以便之后的查询和检索。 网页的抓取策略可以分为深度优先、广度优先和最佳优先三种。 在系统开发过程中使用广度优先搜索策略。 广度优先搜索策略是指在抓取过程中,在完成当前层次的搜索后,才进行下一层次的搜索。 该算法的设计和实现相对简单。 在目前为覆盖尽可能多的网页,一般使用广度优先搜索方法,将广度优先搜索与网页过滤技术结合使用,先用广度优先策略抓取网页,再将其中无关的网页过滤掉。 本系统中采用的就是这种抓取策略。 信息抽取就是把文本里边包含的某些特定的信息提取出来 , 进行结构化处理 ,变成表格一样的组织形式。 信息 抽取系统的主要功能是从文本中抽取出特定的事实信息。 通常 , 被抽取出来的信息以结构化的形式描述 , 可以直接存入数据库中 , 供用户查询以及进一步分析利用。 在计算机科学中 , 是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。 在很多文本编辑器或其他工具里 , 正则表达式通常被用来检索和或替换那些符合某个模式的文本内容 ,正则表达式 能够匹配不定长的字符集,这是 7 其它能作用在字符串上的方法所不能做到的。 许多程序设计语言都支持正则表达式 ,这其中也包括 ruby 语言,正是正则表达式的种种优点让它在开发人员中很 受欢迎,在本系统中访问规则、提取规则就是用正则表达式限制的。 Ruby on Rails Rails 程序是使用 Ruby 编写的,它是一门现代,面向对象的脚本语言。 Ruby简洁,不难理解。 它可以让你快速地用代码自然,清晰表达想法。 让你的程序能很简单被编写并且在几个月后还能很容易读懂。 Ruby on Rails 是一个 Web 应用程序框架,是一个相对较新的 Web 应用程序框架,构建在 Ruby 语言之上。 它被宣传为现有企业框架的一个替代,而它的目标,简而言之,就是让生活,至少是 Web 开发方面的生活,变得更轻 松。 Rails 是一个 MVC 框架。 当你使用 Rails 进行开发,应用程序的所有代码以一种标准方式互相作用。 在开始开发之前,整个应用程序的骨架已经搭好。 ruby on rails 使用的实时映射技术和元编程技术,免去了开发人员在开发过程中编写大量样板文件代码的烦恼。 在少数需要使用样板文件代码的时候,开发人员可以通过ruby on rails 内建的生成器脚本实时创建,而不再是通过手工编写。 rails 的这个特点可以使开发人员更专注于系统的逻辑结构,而不必为一些琐碎的细节所烦扰。 8 4 需求分析 需求分析是软件定义时期的最后 一个阶段,它的基本任务是准确地回答“系统必须做什么”这个问题。 需求分析所要做的工作是深入描述软件的功能和性能,确定软件设计的限制和软件同其它系统元素的接口细节,定义软件的其它有效性需求。 通常软件开发项目是要实现目标系统的物理模型,即确定待开发软件系统的系统元素,并将功能和数据结构分配到这些系统元素中。 它是软件实现的基础。 系统用例图 通 用 w e b 信 息 采 集 系 统系 统 管 理 员超 级 用 户用 户 管 理任 务 组 管 理任 务 管 理浏 览 其 他 用 户 任 务普 通 用 户 图 系统用例图 系统主要业务流程分析 系统总体流程图,如图 所示。 9 开 始进 入 系 统 页 面用 户 登录 验 证普 通 用 户Y结 束YN提 示 错 误重 新 登 录系 统 管 理 员超 级 用 户进 入 系 统 页 面用 户 管 理执 行 修 改 个 人 任 务浏 览 其 他 用 户 任 务显 示 普 通 用 户操 作 界 面显 示 超 级 用 户操 作 界 面显 示 管 理 员操 作 界 面执 行 或 修 改负 责 的 任 务NNYY输 入 用 户名 和 密 码N 图 系统流程图 功能需求分析 功能介绍 系统分为登录功能、任务组管理功能、任务管理功能、用户管理功能。 10 登录功能:在本系统只有登录用户才能访问,登录时,系统根据账号区分用户类型,不同用户登录后界面不同,当用户输入用户名和密码经过系统验证成功后,用户即可进入对应的页面。 若验证不成功,则跳回登录页面,重新输入登录信息 任务组管理功能:超级用户和普通用户都具有新建任务组的功能,但是超级用户不仅可以对自己的任务组进行管理,还能浏览其他用户的的任务组,但是普通用户只能操作自己创建的任务组,对其他用户创建的任务 无法管理,也无法浏览。 任务管理功能:与任务组管理相同,超级用户和普通用户都具有新建任务的功能,但是超级用户不仅可以对自己的任务进行管理,还能浏览其他用户的的任务,但是普通用户只能操作自己创建的任务,对其他用户创建的任务无法管理,也无法浏览。 用户管理功能:系统管理员可以对用户的信息进行管理,包括用户的添加、修改、删除,用户信息包括:登录名称、密码、昵称、邮箱、用户类型。 添加新用户,管理员创建新用户时需要对用户部分信息有限制,例如登录名称是唯一的输入密码之后需要再次确认密码只有俩次输入相同才能创建,对于邮箱 要符合邮箱的规则。 查询用户信息,管理员可通过此功能,查询用户的全部信息。 修改用户信息,同新建用户的格式相同,可以在之前的用户信息的基础上对自己想要修改的信息进行对应的修改即可。 删除用户信息,若要删除此条用户的信息记录,即可使用此功能,再删除时会有一个确认提醒,避免误删。 登录流程图 管理员输入用户名和密码后,系统将对用户名和密码进行验证是否正确,若不正确,系统将提示管理员用户名和密码不存在重新输入。 若验证成功将登录到管理员界面,可进行相关操作。 如图 所示。 11 开 始输 入 用 户名 和 密 码验 证 信 息进 入 界 面 操 作显 示 结 果结 束NY 图 用户登录流程图 12 任务采集流程图 开 始按 行 读 取起 始 地 址 列 表存 入 数 据 库 表 中取 出 一 个 链 接是 否 取 到是 否 超 出递 归 深 度下 载 网 页取 出 链 接是 否 符合 规 则是 否 重 复结 束YNYNYNYN 图 任务采集流程图 13 5 系统设计 在系统设计部分会设计出系统的功能模块图,即本次题目所要完成的总体功能目标。 通过这样的一个功能模块图可以清楚的解释题目的内在含义,并且对具体要完成什么样的任务给出一个清晰的思路。 进行系统设计,将整个系统分成若干模块,尽量使各个模块之间独立,减少冗余。 对于开发人员,如果对整个系统有了一个详细的设计和清晰的功能划分,对程序的开发及达到用户的最终要求都有很大的帮助。 设计实现的策略 通 用 web 信息采集系统采用模块化程序设计,主要分为登录验证功能、用户管理功能、任务组管理功能和任务管理功能四大功能。 如图。 通 用 w e b 信 息 采 集 系 统用 户 登 录用 户 管 理任 务 管 理 任 务 组 管 理登录验证添加用户修改用户删除用户查询用户信息添加任务修改任务删除任务查询任务信息任务采集删除任务组修改任务组添加任务组查询任务组信息网 页 采 集网页下载信息抽取 图 功能模块图 14 (1) 登录模块:在进行登录验证的过程中,根据用户表中的角色外键判断用户类型,用户类型包括三个角色系统管理员、超级用户员和普通用户,不同用户登录调转不同的管理界面; (2) 用户管理模块:系统管理员登录后,能够管理用户的信息,用户管理功能包括添加用户、编辑用户、删除用户、查询用户信息。 在进行用户管理操作时,有用户类型的判断,其 他类型用户,不能执行此项管理; (3) 任务组管理模块:包括添加任务组、编辑任务组、删除任务组、查询任务组。 不同用户在此功能模块的权限不同,超级用户不仅能管理自己的任务组,还能浏览其他用户的任务。 普通用户不具有浏览其他用户任务组的功能; (4) 任务管理模块:包括添加任务、编辑任务、删除任务、开始任务。 同任务管理模块一样,超级用户不仅能管理自己的任务,还能浏览其他用户的任务。 普通用户不具有浏览其他用户任务的功能; (5) 网页采集模块:此模块为本系统核心模块,包括下载网页、信息抽取。 下载网页提取符合访问条件且之前没有提取过的链接, 提取符合提取规则的信息。 编程模型 B/S( Browser/Server,浏览器 /服务器)模式又称 B/S 结构。 它是随着 Inter技术的兴起,对 C/S 模式应用的扩展,在这种结构下,用户工作界面是通过 IE 浏览器来实现的。 B/S 模式最大的好处是运行维护比较简便,能实现不同的人员,从不同的地点,以不同的接入方式访问和操作共同的数据;最大的缺点是对企业外网环境依赖性太强,由于各种原因引起企业外网中断都会造成系统瘫痪。 B/S 模式的优点和缺点:具有分布性特点,可以随时随地进行查询、浏览等业务处理;业务扩展简单方便, 通过增加网页即可增加服务器功能;维护简单方便,只需要改变网页,即可实现所有用户的同步更新;开发简单,共享性强。 B/S 模式的缺点:个性化特点明显降低,无法实现具有个性化的功能要求;操作是以鼠标为最基本的操作方式,无法满足快速操作的要求;页面动态刷新,响应速度明显降低;无法实现分页显示,给数据库访问造成较大的压力;功能弱化,难以实现传统模式下的特殊功能要求。 15 数据模型分析 任 务描 述更 新 时 间用 户登 录 名 称深 度任 务 名 称起 始 地址 列 表访 问 规 则 等 待 时 间提 取 规 则创 建N密 码 昵 称 邮 箱 创 建 时 间 更 新 时 间 用 户 类 型更 新 时 间创 建 时 间所 属 组1任 务 组属 于 1N创 建 者创 建 时 间任 务 组名 称创 建 者创 建1N属 于角 色角 色 类 型 创 建 时 间 修 改 时 间N1采 集1N信 息U R L 信。通用web信息采集系统论文
相关推荐
员应严格遵守国家有关保密的法律、法规和规定,严格自律,并接受上级主管部门和有关部门的审计和监督。 投标单位申报的关于资质、业绩等的文件和材料必须真实准确,不得弄虚作假。 投标单位不得串通作弊,哄抬标价,致使定标困难或无法定标。 投标单位不得采用不正当手段妨碍、排挤其它投标单位,扰乱招标市场,破坏公平竞争。 聚氯乙烯一体化项目 2500d/t水泥熟料生产线 工程 配套干式变压器 招标文件 12
电产品统计目录表 商品类别 海关商品编码 一、金属制品 7307~ 7326 7421~ 7419 75072~ 7508 7609~ 7616 7806009 7907 8007004, 8007009 8101999, 810299, 8103909, 8104902, 81059, 8106009, 81079, 8108909, 81099, 81109, 8111009, 811219
禁安全带低挂高用。 高空作业 安全工作规程 详见 ( 附录 4) 安全带、梯子等必须定期检查,严禁使用不合格或者报废得梯子和安全带。 )梯子使用时角度不应小于 60 度,梯子与地面必须接触良好并有可靠的防滑措施。 )在使用脚手架时,必须对脚手架进行验收,脚手架上 的跳板搭设应稳固,要有必要的防护栏。 在登高作业时必须采取可靠的防滑措施,使用软底鞋、梯子和脚手架上不得有附冰,油污等
地下 第二层的是一个球状的电子眼一样的东东,会群攻,附带麻痹效果,我肉搏战打了 10 多分钟才搞定它。 而且我还是高等级的( 60的)人物。 用战车的话应该会比较容易一些吧,搞定他之后我们来到第三层,这里我们要面对的是一个通缉犯,攻击时群体火焰属性,附带燃烧效果,所以我们灭火器是必备的咯。 好像这个家伙不能战车战搞定吧,好像他在那个位置战车开不过去。 如果前 2层我们的东西消耗的差不多了
一季度工作已经完成,现将工作情况总结如下: 一、以促进非公经济人士思想工作为中心 2020 年,全市非公经济仍然处于产业投资乏力、房地产降温的状态中,给非公经济发展带来巨大压力。 非公经济人士的发展劲头受到打击。 面对这种情势,工商联积极应对,果断发力, 积极做好非公经济人士的思想工作。 3 月初,工商联组织会员代表,举办 “企业面临问题及解决办法 ”座谈会。 会谈中,会员针对当前形势
教育的组织保证。 大学生思想政治教育工作队伍主体是学校党政干部和共青团干部,思想政治理论课和哲学社会科学课教师,辅导员和班主任。 学校党政干部和共青团干部负责学生思想诙治教育的组织、协调、实施,思想政治理论和哲学社会科学课教师根据学科和课程的内容、特点,负责对学生进行思想理论教育、思想品德、教育和人文素质教育;辅导员、班主任是大学生思想政治教育的 骨干力量