高可用Hadoop集群搭建经验参考

type

status

date

slug

summary

🤔 一个简单的开头

主要内容：本文总结了搭建hadoop集群时遇到的问题以及所需的配置文件

心得：这是第三次搭建Hadoop集群啦，初次搭建的是完全分布式集群，那时候连Linux命令都不会cd,ls一个一个学,:wq不知道怎么输；

第二次是大数据技术基础课上搭的还是完全分布式集群，因为是第二次搭已经得心应手许多啦；

这次搭的是高可用集群，主要在格式化时遇到的问题较多，虽然根据以往经验，得出删除格式化产生的元数据文件就可以重新格式化了，但是看懂配置文件，找到元数据文件目录花费了许多时间。

注意：本文仅供参考，无具体步骤细节，如有问题欢迎指出。

📝主旨内容

一、Tips

1、搜索问题解决方案的途径——复制命令及ERROR信息到：

1、谷歌

2、CSDN

3、ChatGPT

2、配置文件直接复制粘贴到Xshell，不容易出错。

二、遇到的问题

坑1 ping不通

1、ping不通百度：检查ifcfg-ens**配置文件

2、ping通百度，ping不通IP地址：检查防火墙是否关闭

注意更改/etc/selinux/config文件后需要重启并重新关闭防火墙。

3、能ping通IP地址，ping不通主机名：检查hosts文件以及主机名是否正确。

坑2 集群启动时显示命令不存在

1、检查环境变量

2、检查各台虚拟机文件是否完整，可能是未分发文件导致

·分发文件

·拓展：xsync集群分发脚本

坑3 zookeeper启动失败FAIL TO START

1、检查zookeeper配置文件，注意更改配置文件后要分发。

2、检查三台虚拟机的myid。

坑4 journalnode启动失败

1、注意启动journalnode后要用jps命令查看是否启动成功

2、启动失败就看一HADOOP_HOME/logs目录下的相关日志信息，查看报错，修改相应配置文件

坑5 格式化失败

1、格式化前先备份虚拟机

2、注意要按步骤进行，先启动三台虚拟机的zookeeper服务，然后启动三台服务器的journalnode结点，确保上述步骤正确执行后再格式化，否则需要重新格式化

3、查看报错信息，看不懂就搜一下，看看是哪个结点出错了（一般前面journalnode启动成功了，就是namenode的问题）

4、查看HADOOP_HOME/logs目录下相关日志信息，查看报错，修改相应配置文件

5、重新格式化步骤：先删除

/var/data/hadoop/tmp/目录下新产生的文件（仅针对此实验），确保配置文件修改正确，然后重新格式化

坑6 修改物理主机hosts文件注意

有的电脑不能直接在C://windows/system32/drivers/etc/目录里改hosts文件（只读的），可以将hosts文件复制到其他目录，更改后剪切过去，选择替换原文件

其它坑 yarn集群结点启动失败

看报错信息，检查配置文件

三、配置文件

1、环境变量

2、zookeeper配置文件

3、hadoop配置文件

(1)hadoop.env

(2)core-site.xml

(3)hdfs-site.xml

(5)mapred-site.xml

(6)yarn-site.xml

致谢：

💡

感谢阅读，有问题欢迎指出~