hadoop实战手册入门资料内容摘要:

......... 47 与 MapReduce 有关的地址及端口属性 ........................................................... 48 8 附录 ............................................................................................................................ 49 hadoop 历史 .......................................................................................................... 49 Hadoop 大记事 ...................................................................................................... 50 Hadoop 的几个主要子项目 .................................................................................... 51 官方集群搭建参考 ................................................................................................ 51 配置文件 ......................................................................................................... 51 集群配置说明 .................................................................................................. 52 北京宽连十方数字技术有限公司 公开 绝密 1 概述 作什么事情之前,第一步是要知道 What(是什么),然后是 Why(为什么),最后才是 How(怎么做)。 避免将技术误用于不适合的场景,这一点非常重要。 什么是 Hadoop。 Hadoop 由 Apache Software Foundation 公司于 2020 年秋天作为 Lucene 的子项目 Nutch 的一部分正式引入。 它受到最先由 Google Lab 开发的 MapReduce 和 Google File System 的启发。 2020 年 3 月份, MapReduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。 Hadoop 并不仅仅是一个用于存储的分布式文件系统,而是设计用来在由通用计算设备组成的大型集群上执行分布式应用的基础框架。 它由 Apache 基金会开发。 用户可以在不了解分布式底层细节 的情况下,开发分布式程序。 充分利用集群的威力高速运算和存储。 简单地说来, Hadoop 是一个可以更容易开发和运行处理大规模数据的软件平台。 下图是 Hadoop 的体系结构: Hadoop 框架中最核心的设计就是: MapReduce 和 HDFS。 1) MapReduce 的思想是由 Google 的一篇论文所提及而被广为流传的,简单的一句话解释 MapReduce 就是 ―任务的分解与结果的汇总 ‖。 2) HDFS 是 Hadoop 分布式文件系统( Hadoop Distributed File System)的缩写,为分布 式计算存储提供了底层支持。 为什么要选择 Hadoop。 系统特点 下面列举 hadoop 主要的一些特点: 1) 扩容能力( Scalable):能可靠地( reliably)存储和处理千兆字节( PB)数据。 2) 北京宽连十方数字技术有限公司 公开 绝密 成本低( Economical):可以通过普通机器组成的服务器群来分发以及处理数据。 这些服务器群总计 可达数千个节点。 3) 高效率( Efficient):通过分发数据, hadoop 可以在数据所在的节点上并行地( parallel)处理它们, 这使得处理非常的快速。 4) 可靠性( Reliable): hadoop 能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署 ( redeploy)计算任务。 使用场景 个人觉得最适合的就是海量数据的分析,其实 Google 最早提出 MapReduce 也就是为了海量数据分析。 同时 HDFS 最早是为了搜索引擎实现而开发的,后来才被用于分布式计算框架中。 海量数据被分割于多个节点,然后由每一个节点并行计算 ,将得出的结果归并到输出。 同时 第一阶段的输出又可以作为下一阶段计算的输入,因此可以想象到一个树状结构的分布式计算图,在不同阶段都有不同产出,同时并行和串行结合的计算也可以很好地在分布式集群的资源下得以高效的处理。 2 术语 1) Namenode: HDFS 采用 master/slave 架构。 一个 HDFS 集群是由一个 Namenode 和一定数目的 Datanodes 组成。 Namenode 是一个中心服务器,负责管理文件系统的名字空间 (namespace)以及客户端对文件的访问。 Namenode 执行文件系 统的名字空间操作,比如打开、关闭、重命名文件或目录。 它也负责确定数据块到具体 Datanode 节点的映射 2) Datanode: 集群中的 Datanode 一般是一个节点一个,负责管理它所在节点上的存 储。 HDFS 暴露了文件系统的名字空间,用户能够以文件的形式在上面存储数据。 从 JobTracker是 MapReduce 框架中最主要的类之一, 所有 job 的执行都由它来调度,而且 Hadoop 系统中只配置一个 JobTracker 应 用。 它们都是由一个 master 服务 JobTracker 和多个运行于 多个节点的 slaver 服务TaskTracker两个类提供的服务调度的。 master负责调度 job的每一个子任务 task运行于 slave上,并监控它们,如果发现有失败的 task 就重新运行它, slave 则负责直接执行每一个 task。 北京宽连十方数字技术有限公司 公开 绝密 TaskTracker 都需要运行在 HDFS 的 DataNode 上,而 JobTracker 则不需要,一般情况应该把 JobTracker 部署在单独的机器上。 3 Hadoop 的单机部署 参考: 目的 本章节的目的是帮助你快速完成单机上的 Hadoop 安装与使用以便你对 Hadoop 分布式文件系统 (HDFS)和 MapReduce 框架有所体会,比如在 HDFS 上运行示例程序或简单作业等。 先决条件 支持平台 1) GNU/Linux 是产品开发和运行的平台。 Hadoop 已在有 2020 个节点的 GNU/Linux 主机组成的集群系统上得到验证。 2) Win32 平台是作为开发平台支持的。 由于分布式操作尚未在 Win32 平台上充分测试, 所以还不作为一个生产平台被支持。 所需软件 Linux 和 Windows 所需软件包括 : 1. Sun ,必须安装。 2. ssh 必须安装并且保证 sshd 一直运行,以便用 Hadoop 脚本管理远端 Hadoop 守护 进程。 安装软件 如果你的集群尚未安装所需软件,你得。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。