且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

hadoop集群环境搭建

更新时间:2022-09-15 19:19:59

hadoop大数据集群环境搭建步骤----安装伪分布式

所需软件: vmware workstation 11.0

         jdk1.7.0_67

        hadoop-2.7.3

        filezilla FTP工具

开始搭建步骤:

  1. 先安装一台linux服务器,(此步忽略) 需要的童鞋请到网上搜索安装linux系统

  2. 关防火墙

  3.  service iptables stop

  4. 2.设置IP地址

  5. vi /etc/sysconfig/network-scripts/ifcfg-eth0

  6. 或者图像化修改!

  7. 3.设置network文件hosts映射文件

  8. vi /etc/hosts

  9. vi /etc/sysconfig/network

  10. 4.安装jdk

  11. 上传JDK解压

  12. 配置环境变量: 

  13. vi /etc/profile

  14. source /etc/profile

  15. 5.安装hadoop

  16. 上传 hadoop-2.7.3.tar.gz 

  17. 解压

  18. 6.配置hadoop:

  19. 注意:配置过程可以参考:

  20. 离线开发文档:

  21. D:\hadoop\tools\hadoop-2.7.3\hadoop-2.7.3\share\doc\hadoop\index.html

  22. 在线文档:

  23. 配置:

  24. core-site.xml:

  25. <!--配置hdfs系统的地址和端口-->

  26.  <property>

  27.         <name>fs.defaultFS</name>

  28.         <value>hdfs://Hadoop:9000</value>  端口:8020 

  29.   </property>

  30. <property>

  31.       <name>fs.defaultFS</name>

  32.         <value>hdfs://hadoop-yarn.beicai.com:8020</value>

  33.   </property>

  34.    <property>

  35.       <name>hadoop.tmp.dir</name>

  36.        <value>/opt/modules/hadoop-2.5.0/data/tmp</value>

  37.     </property>

  38. hdfs-site.xml:

  39. <!--配置数据块的副本数-->

  40.   <property>

  41.         <name>dfs.replication</name>

  42.         <value>1</value>

  43.     </property>


  44. 先把mapred-site.xml.template 重命名为mapred-site.xml

  45. maperd-site.xml:

  46. <!--使用yarn管理mapreduce job-->

  47.   <property>

  48.   <name>mapreduce.framework.name</name>

  49.   <value>yarn</value>

  50.   </property>


  51. yarn-site.xml:

  52. <!--nodemanager节点使用mapreduce的shuffle过程-->

  53.     <property>

  54.         <name>yarn.nodemanager.aux-services</name>

  55.         <value>mapreduce_shuffle</value>

  56.     </property>

  57. hadoop-env.sh:

  58. 配置jdk:

  59. export JAVA_HOME=/opt/jdk



  60. 配置ssh免登陆:

  61. (1).cd /root/.ssh/

  62. (2).生成rsa秘钥:

  63.  ssh-keygen -t rsa   一路回车!!!

  64. (3).查看秘钥:

  65. ls

  66. id_rsa  id_rsa.pub  known_hosts

  67. (4).将公钥copy给自己!

  68. ssh-copy-id root@Hadoop(ssh-copy-id Hadoop有什么区别?)

  69. 然后可以查看目录下:

  70. authorized_keys


  71. 格式化集群:

  72. hdfs namenode -format

  73. 格式化查看日志:

  74. 17/02/17 16:18:30 INFO common.Storage: Storage directory 

  75. /tmp/hadoop-root/dfs/name has been successfully formatted

  76. 因为没配置指定的dfs目录(元数据和数据目录:name和data),所以name和data在Linux系统的tmp目录下:


  77. 启动集群:

  78. 启动hdfs模块:

  79. ./start-dfs.sh


  80. 看hdfs启动进程:jps

  81. 2608 DataNode

  82. 2480 NameNode

  83. 2771 SecondaryNameNode


  84. 启动yarn模块:

  85. ./start-yarn.sh

  86. 看hdfs启动进程:jps

  87. 2958 ResourceManager

  88. 3055 NodeManager


  89. 上传文件到hdfs:

  90. ./hadoop fs -put /file /


  91. /tmp/hadoop-root/dfs/目录下多出一个data目录,存放数据块


  92. /tmp/hadoop-root/dfs/name目录存放的是元数据!



  93. 查看webUI:

  94. http://192.168.57.2:50070/


  95. 192.168.57.2  是namenode的IP地址



  96. 配置hadoop环境变量:

  97. export HADOOP_HOME=/opt/hadoop-2.7.1

  98. export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

  99. 刷新:

  100. source /etc/profile


  101. 此后就可以在任何路径下使用hadoop下的bin和sbin的脚本!

  102. 本文转自   ChinaUnicom110   51CTO博客,原文链接:http://blog.51cto.com/xingyue2011/1899391