[it计算机]hadoop入门实战手册内容摘要:

me/name value /property /configuration conf/: configuration property name/name value1/value /property /configuration conf/: configuration property name/name valuelocalhost:9001/value /property /configuration 北京宽连十方数字技术有限公司 公开 内部公开 √ 机密 绝密 免密码 ssh设置 现在确认能否不输入口令就用 ssh 登录 localhost: $ ssh localhost 如果不输入口令就无法用 ssh登陆 localhost,执行下面的命令: $ sshkeygen t dsa P 39。 39。 f ~/.ssh/id_dsa $ cat ~/.ssh/ ~/.ssh/authorized_keys 执行 首先使用 hadoop 命令对 Hadoop File System (HDFS) 进行格式化。 首先,请求 namenode 对 DFS 文件系统进行格式化。 在安装过程中完成了这个步骤,但是了解是否需要生成干净的文件系统是有用的。 [hadoop@TEST085 ]$ bin/hadoop namenode –format 注: 在确认请求之后,文件系统进行格式化并返回一些信息 : 11/07/12 17:47:12 INFO : STARTUP_MSG: /************************************************************ STARTUP_MSG: Starting NameNode STARTUP_MSG: host = TEST085/ STARTUP_MSG: args = [format] STARTUP_MSG: version = STARTUP_MSG: build = r 1099333。 piled by 39。 oom39。 on Wed May 4 07:57:50 PDT 2020 ************************************************************/ 11/07/12 17:47:12 INFO : VM type = 32bit 11/07/12 17:47:12 INFO : 2% max memory = MB 11/07/12 17:47:12 INFO : capacity = 2^22 = 4194304 entries 11/07/12 17:47:12 INFO : remended=4194304, actual=4194304 北京宽连十方数字技术有限公司 公开 内部公开 √ 机密 绝密 11/07/12 17:47:13 INFO : fsOwner=hadoop 11/07/12 17:47:13 INFO : supergroup=supergroup 11/07/12 17:47:13 INFO : isPermissionEnabled=true 11/07/12 17:47:13 INFO : =100 11/07/12 17:47:13 INFO : isAccessTokenEnabled=false accessKeyUpdateInterval=0 min(s), accessTokenLifetime=0 min(s) 11/07/12 17:47:13 INFO : Caching file names occuring more than 10 times 11/07/12 17:47:13 INFO : Image file of size 112 saved in 0 seconds. 11/07/12 17:47:13 INFO : Storage directory /tmp/hadoophadoop/dfs/name has been successfully formatted. 11/07/12 17:47:13 INFO : SHUTDOWN_MSG: /************************************************************ SHUTDOWN_MSG: Shutting down NameNode at TEST085/ ************************************************************/ 接下来,启动 Hadoop 守护进程。 启动 Hadoop 守护进程: [hadoop@TEST085 ]$ bin/ 注: 1) Hadoop 守护进程的日志写入到 ${HADOOP_LOG_DIR} 目录 (默认是 ${HADOOP_HOME}/logs) 2) 启动 hadoop,但 ssh 端口不是默认的 22 怎么样。 好在它可以配置。 在conf/ 里改下。 如: export HADOOP_SSH_OPTS=p 1234 浏览 NameNode 和 JobTracker 的网络接口,它们的地址默认为:  NameNode  JobTracker 将输入文件拷贝到分布式文件系统: $ bin/hadoop fs put conf input 北京宽连十方数字技术有限公司 公开 内部公开 √ 机密 绝密 运行发行版提供的示例程序: $ bin/hadoop jar grep input output 39。 dfs[az.]+39。 查看输出文件: 将输出文件从分布式文件系统拷贝到本地文件系统查看: $ bin/hadoop fs get output output $ cat output/* 或者 在分布式文件系统上查看输出文件: $ bin/hadoop fs cat output/* 完成全 部操作后,停止守护进程: $ bin/ Hadoop 在这个伪分布式配置中启动 5 个守护进程: namenode、 secondarynamenode、datanode、 jobtracker 和 tasktracker。 在启动每个守护进程时,会看到一些相关信息(指出存储日志的位置)。 每个守护进程都在后台运行。 图 1 说明完成启动之后伪分布式配置的架构。 图 1. 伪分布式 Hadoop 配置 4 Hadoop集群搭建 过程 手记 参考: 北京宽连十方数字技术有限公司 公开 内部公开 √ 机密 绝密 先用了 三台服务器作了 hadoop 集群的部署测试 , 服务 器有 (下面简称85) , (下面简称 160), (下面简称 254), 架构规化如下 : 1) 85 作为 NameNode, SecondaryNameNode, JobTracker; 2) 160 和 254 作为 DataNode,TaskTracker 免密码 SSH设置 打通 ssh,让 85 免登陆到 160, 254。 打通 过程如下: 1) 名称节点 85 和数据节点 ( 160, 254) 各自创建用户 hadoop,使用相同的密码。 2) 以 hadoop 用户名登陆名称节点 ( 85) 执行 sshkeygen t rsa 然后一路回车,完毕后生成文件 .ssh/,把这个文件复制到当前位置,命名为authorized_keys;然后执行命令 ssh ,如果不需要密码则直接登陆进去的话,就达到要求;否则需检查 authorized_keys 的权限,看是否为 644( rwrr)。 3) 接下来,同样也 hadoop 用户登陆数据节点服务器 ( 160, 254) ,创建 .ssh 目录,并给与 600 权限( chmod 600 .ssh)。 再把名称服务器上的 authorized_keys 复制到目录数据节点( 160, 254) ./ssh,注意权限和目录结构跟名称节点保持一致,然后再从名称节点用 ssh 登陆数据节点,如果不需要密码能登陆成功,则 ssh 的配置结束。 Hadoop软件安装 以 hadoop 用户登陆 , 将安装软件解压到集群内的所有机器上 , 编辑 conf/文件,至少需要将 JAVA_HOME 设置为 Java 安装根路径 (安装过程参考“ 3 hadoop 的单机部署 ”)。 我们用 HADOOP_HOME指 定 安装的根路径。 通常 集群里的所有机器的 HADOOP_HOME路径相同 ,安装路径定为: /home/hadoop/ 1) 进行 JDK 和内存占用配置: conf/ 需要修改的内容 : The java implementation to use. Required. export JAVA_HOME=/usr/local/java 修改成你自己 jdk 安装的目录 The maximum amount of heap to use, in MB. Default is 1000. export HADOOP_HEAPSIZE=200 根据你的内存大小调整 2) 修改 masters 和 slaves 配置 北京宽连十方数字技术有限公司 公开 内部公开 √ 机密 绝密 修改文件 /usr/local/hadoop/conf/slaves及 /usr/local/hadoop/conf/masters,把数据节点的主机名加到 slaves、名称节点主机名加到 masters。 可以加多个,每行一个。 注意主机名需要在每个服务器的 /etc/hosts映射好。 [hadoop@TEST085 ]$ vi conf/slaves [hadoop@TEST085 ]$ vi conf/master Master(85)配置 85 为 master 结点 ,则 85 的配置文件如下 : hadoop 在 版本,配置文件由以前的 文件变成三个配置文件 ,hdfs ,。 内 在的原因是因为 hadoop 代码量越来越宠大,拆解成三个大的分支进行独立开发,配置文件也独立 了。 下面是三个配置文件示例: [ conf] cat ?xml version=? ?xmlstylesheet type=text/xsl href=? ! Put sitespecific property overrides in this file. configuration property name/name value /property /configuration [ conf] cat ?xml version=? ?xmlstylesheet type=text/xsl href=? ! Put sitespecific property overrides in this file. configuration property 北京宽连十方数字技术有限公司 公开 内部公开 √ 机密 绝密 name/name value3/value descriptionDefault block replication. The actual number of replications can be specified when the file is created. The default is used if replication is not specified in create time. /description /property /configuration [ conf] cat ?xml version=? ?xmlstylesheet type=text/xsl href=? ! Put sitespecific property overrides in this file. configuration property name/name value:9001/value /property /configuration 设置系统环境 ,以方便执行 hadoop命令 在 /home/hadoop/ .bashrc加入 export HADOOP_HOME=/root/hadoop/hadoop export HADOOP_CONF_DIR=$HADOOP_HOME/conf export PATH=/root/hadoop/hadoop/bin:$PATH Slave(60,245上 )配置 在 Slave(60,245上 )上的配置文件如下 ( ): [ conf] cat。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。