基于hadoop平台的教育资源垂直搜索系统的设计与实现毕业论文(编辑修改稿)内容摘要:
43 方案部署 ............................................................. 43 硬件配置 ...................................................... 43 SSH 公钥认证 配置 .............................................. 44 Hadoop 平台搭建 ................................................ 44 Hbase 平台搭建 ................................................. 45 与垂直搜索引擎结合 ............................................ 46 开发平台及其开发工具 ................................................. 47 操作系统 ....................................................... 47 硬件平台 ....................................................... 47 开发工具 ....................................................... 47 MDVSP 系统的实现 ................................................... 48 聚焦蜘蛛模块的实现 ............................................. 48 教育资源搜索结果 ............................................... 49 教育资源信息自动抽取的实现 ..................................... 51 LUCENE 倒排文件索引结构 ........................................ 56 教育资源信息的存储实现 ......................................... 58 用户查询功能的实现 ................................................... 58 用户查询主要函数实现 ........................................... 58 教育资源信息查询 ............................................... 60 运行结果与对比 ...................................................... 62 本章小结 ............................................................ 64 第七章 总结与展望 ............................................. 65 总结 ................................................................ 65 展望 ................................................................ 65 参考文献 .................................................... 67 致 谢 ...................................................... 69 江苏大学硕士研究生毕业论文 1 第 一 章 绪论 课题研究背景及意义 随着网络与通信技术的迅速发展, Web信息爆炸性的增长,互联网已经成为一个巨大的海量信息空间。 如何迅速、准确、方便的从如此庞大的信息库获取自己需 要的信息,是互联网用户面临的一个重要问题。 搜索引擎的出现,整合了众多网站信息,极快的查询起到了信息导航的作用,信息的价值得到众多商家的普遍认可,成为互联网中最有价值的领域。 大家熟知的搜索引擎 Google、百度、雅虎等都是搜索引擎的杰出代表,为互联网的发展做出了重要的贡献。 我国互联网络信息中心 CNNIC于 20xx年 1月发布的《第 17次中国互联网络发展统计报告》显示:搜索引擎以 %的使用率成为第二大网络服务 [1]。 互联网的信息量呈爆炸趋势增长,几年前全球式搜索引擎收录的网页量只有几千万页,而现在已经达 到几十亿页,数量增加带来的是搜索服务的品质下降,查询的结果集就是海量的,经常是几十万笔的资料,结果里存在大量的重复信息和垃圾信息,用户越来越难迅速找到符合的信息,现在经常使用搜索引擎可以感觉到很难在短时间内准确的筛选出需要的内容。 因此,如何对通用搜索引擎技术进行改进,使查询的结果更加贴近用户的要求,成为搜索引擎行业近期的研究热点。 对于基础教育领域的广大教师、学生、家长以及其他教育工作者,互联网已经成为他们获取基础教育资源和信息的重要工具,网上大量的试卷、教学研究论文、课件、课外阅读材料、招生信息等基础教育 资源信息可以使教师提高自己的工作效率和水平,使学生扩大自己的知识面,使家长掌握最新的教育信息。 那么对教育资源用户来讲,目前的信息服务能否满足他们的需求。 他们更倾向于什么样的信息服务形式。 目前现状 1. 获取基础教育资源 最常用的方式是搜索引擎 [2] 用户获取基础教育资源的较经常使用的方式为搜索引擎、学科专题网站、基础教育综合网站。 其中使用最多的是搜索引擎。 2. 目前的搜索引擎还不能完全满足用户需求 [2] 综合性通用搜索引擎在一定程度上方便了用户查找利用网上信息,但由于它面江苏大学硕士研究生毕业论文 2 向的是大众,强调通用性,搜索结果中 有很多杂乱信息,信息的准确度较低,不能完全满足基础教育用户的需求。 3. 倾向简单的检索方式 [2] 大多数人通常使用关键词查询,一部分人使用诸如“ +( and)”、“ ( or)”等检索技巧,使用高级检索的人很少,用合适的关键词检索是被所有用户认为是比较容易的,所有用户都倾向于简单易用的检索方式。 4. 通常输入的检索内容包含不同层次的信息 大多数用户输入单个或多个关键词,而多个关键词的查询往往包含有两类信息—— 主题描述信息和资源的类别限制信息。 比如说,一位教师输入“《阿 Q 正传》教案”,关键词“阿 Q 正传”是主题信息,关键词 “教案”,是类别限制信息,再如一个学生查找“八年级(上)生物学试题”为学段(年级)、学科和资源类型的组合。 最常见的主题描述信息是学科内知识点、语文课文标题等,常见的类别限制信息是学科、学段(或年级)、资源类型。 总体上,用户使用通用搜索引擎获取基础教育资源存在的问题可归为以下两个方面: 1. 教育资源的关键词不能被搜索引擎正确识别,导致检索结果的信息杂乱与过量,即使搜索出来也与可能是与教育无关的资源信息。 2. 由于在通过关键词检索方式中,关键词与类别词的混杂使用导致信息准确度较低。 往往要搜索的信息排序靠后或漏检。 教育资源搜索存在的问题 根据以上分析,用户获取网上教育资源主要存在以下问题: 信息过量。 网上资源内容广泛 ,通用搜索引擎返回的大量信息过多过杂 ,专业性不强 .使用户淹没在海量信息里,筛选信息需要耗费大量的精力。 信息准确度低。 由于通用搜索引擎强调通用性,检索范围广,对资源没有筛选分类,资源索引库十分庞杂,很难满足特定用户群的特定需求。 信息服务缺乏针对性,缺少用户交互。 通用搜索引擎检索结果完全依赖于用户的关键词,即对于不同的用户,同一个关键词返回的结果相同,没有与用户联系起来,难以满足用户的个性 化需求。 江苏大学硕士研究生毕业论文 3 本文 主要工作 本人通过对现有教育领域搜索引擎的技术分析, 结合问卷抽样调查反馈, 对用户的需求进行鉴别、综合和建模,清除用户需求的模糊性、歧义性和不一致性 ,定义了本系统的功能和性能需求, 在对 Hadoop 平台的框架研究基础之上,提出了基于Hadoop 平台 的 MDVSP(Multitier Distributed Vertical Searching Platform)模型 ,详细阐述了 MDVSP 系统在设计和实现过程中 应用到的一些关键技术 ,并基于该模型实现了MDVSP 原型。 本文的工作包括: (1) 提出了 基于 Hadoop 平台的教育资源垂直搜索系统 (MDVSP)模型。 包括切合本系统的分布式的集群整体框架 和 HDFS 存放结构。 (2) 阐述了 MDVSP 中应用的关键技术,包括聚焦蜘蛛的原理和爬行算法。 (3) 设计了 Map/Reduce 的逻辑结构和数据流。 (4) 设计和封装了 RPC 远程调用协议。 给出了设计思想和数据表示设计。 (5) 设计了 MDVSP 的 HA。 包括框架、原理和详细实现。 (6) 以 JAVA 和 PERL 为工具实现了 MDVSP 系统原型。 最后 对全文的内容进行了总结,分析了系统现有的不足,并提出了进一步完善的目标和基本方法。 本文的组织结 构 本论文共分为 七 章,各章内容具体安排如下: 第一章 绪论。 主要论述课题的研究背景,垂直搜索引擎发展现状、存在的问题。 第二章 Hadoop平台架构。 介绍 Hadoop的概念和 Hadoop的优点, Hadoop平台架构。 第三章 MDVSP平台需求分析。 给出 MDVSP平台的使用用户群,并基于抽样调查和多年的教育经验,对用户的需求进行鉴别、 清除 用户需求的模糊性、歧义性和不一致性,将原始问题的理解与软件开发经验结合,深入描述软件的功能和性能需求。 第四章 基于 Hadoop平台的 MDVSP模型。 叙述基于 Hadoop平 台的教育资源垂直搜索模型 (MDVSP),并阐述这种架构的优点,提出使用这种架构可以解决目前现有搜索平台在教育领域搜索中存在的一些问题。 对 MDVSP系统进行了逻辑结构设计和物理结构设计。 第五章 基于 Hadoop平台的 MDVSP的关键技术。 阐述基于 Hadoop平台模型下构建教育资源垂直搜索系统 (MDVSP)中用到的关键技术。 主要包括聚焦蜘蛛的爬行技术、江苏大学硕士研究生毕业论文 4 基于 Hadoop平台下 Map/Reduce的逻辑结构和数据流设计和系统采用的 MDVSPRPC远程调用的封装技术。 第六章 MDVSP平台的实现。 以 JAVA和 PERL为开发工具, 通过 Hadoop平台框架 实现 基于上述架构模型的 MDVSP系统的各层设计,并 列出相关功能的关键性 JAVA和PERL代码。 通过试验,并与有代表性的垂直搜索平台的搜索结果进行性能对比, 分析 MDVSP平台在教育资源领域的搜索效率和准确度都有所提高。 第七章 总结与展望。 对本文的工作进行总结,并从系统功能和理论研究两个方面对以后的工作进行规划和展望。 江苏大学硕士研究生毕业论文 5 Hadoop 平台架构 Hadoop 的产生 自从 Google 工程师 Jeffrey Dean 提出 Map Reduce 编程思想, MapReduce便在 Google 的各种 Web 应用中释放着魔力。 然而,也许出于技术保密的目的,Google 公司并没有透露其 MapReduce 的实现细节。 幸运的是, Doug Cutting 开发 Hadoop 作为 MapReduce[56]开源实现,让 MapReduce 这么平易近人地走到了我们面前。 20xx 年 1 月, Doug Cutting 因其在开源项目 Nutch 和 Lucene 的卓越表现受邀加入 Yahoo公司,专职在 Hadoop项目上进行开发。 现在, Doug Cutting已经加盟 Cloudera(一家从事 Hadoop 产品商业化及技术支持的公司)。 作为 Google MapReduce 技术的开源实现 ,Hadoop 理所当然地借鉴了 Google 的 Google File System 文件系统、 MapReduce 并行算法以及 BigTable。 因此, Hadoop 也是一个能够分布式处理大规模海量数据的软件框架,这一点不足为奇。 Hadoop假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理。 Hadoop 的高效性在 MapReduce 的思想下, Hadoop 是并行工作的,以加 快任务处理速度。 Hadoop 的可扩展性 依赖于部署 Hadoop 软件框架计算集群的规模 ,Hadoop 的运算是可扩展的,具有处理 PB 级数据的能力。 基于 Hadoop 分布式架构 的优势 没有不好的工具,只用不适用的工具。 本系统采用 Hadoop分布式架构的目的有以下几个方面: 1. 可扩展:不论是存储的可扩展还是计算的可扩展都是 Hadoop的设计根本。 2. 经济:框架可以运行在任何普通的 PC上。 3. 可靠:分布式文件系统的备份恢复机制以及 MapReduce的任务监。基于hadoop平台的教育资源垂直搜索系统的设计与实现毕业论文(编辑修改稿)
相关推荐
r 上导入 hadoop001 与 hadoop002 上的公钥: 4) hadoop001 导入 master 的公钥: [hduser@hadoop001 ~]$ ssh cat ~/.ssh/ .ssh/authorized_keys [hduser@master ~]$ ssh cat ~/.ssh/authorized_keys .ssh/authorized_keys
7 开 始将 姓 名 转 化 为A S C I I 码判 断 是 否 一 样 和哈 希 表 中 的 数 据R e t u r n S U C C E S SY冲 突 处 理N判 断 是 否 一 样 和哈 希 表 中 的 数 据R e t u r n S U C C E S SYR e t u r n U N S U C C E S SN结 束 图 沈阳航空航天大学 课程设计报告 8 5 程序测试
研制出第一台数控机床。 德国特别注重科学试验,理论与实际相结合,基础科研与应用技术科研并重。 企业与大学科研部门紧密合作,对数控机床的共性和特性问题进行深入的研究,在质量上精益求精。 德国的数控机床质量及性能良好、 先进实用、货真价实,出口遍及世界。 尤其是大型、重型、精密数控机床。 德国特别重视数控机床主机及配套件之先进实用,其机、电、液、气、光、刀具、测量、数控系统、各种功能部件,在质量
主体 目前数以百万计的农民运销商和个体商贩活跃在城乡市场,并在果蔬等果品的销售中占据主导地位。 据统计局年鉴统计,从销售户数的比例看 , 97%的农户通过传统销售渠道销售果品,其中 , 75%的农户销售果品的第一买方是小商贩, 71%的农户将果品直接销售给了小商贩。 因此,小商贩仍然是现阶段连接小农户与大市场的重要桥梁。 超市、专业供应商等现代采购方式开始显现,但采用该渠道销售果蔬的农户比例很小
teraction by using JavaScript or jQuery. In addition, ionic is a focus on the development of web technology, based on HTML5 to create a platform similar to the native application development platform
了距离的限制,从而可以实现全国乃至全球漫游监控。 短消息 (SMS)利用信令信道传输,直接把要发 的信息加上目的地址发送到短消息服务中心,由服务中心再发给终端。 短消息容量有限 (每条短信内容最多 140个字节 ),适于传输小流量的数据;由于建立时间较长,传送过程要受短消息服务中心服务器繁忙程度的影响,因而适于非连续性和实时性要求不太高的传输场合 [1]。