Hadoop集群异常:两个NameNode全部为StandBy状态
今天启动Yarn的ResourceManager出错了,报错说是namenode状态错误:
Operation category READ is not supported in state standby.
用命令查看:
[root@dmp-mng-svr1 zookeeper-3.5.10]# hdfs haadmin -getServiceState nn1
standby
[root@dmp-mng-svr1 zookeeper-3.5.10]# hdfs haadmin -getServiceState nn2
standby
什么?两个namenode都是standby,都不想干活了吗?
网上查了一下,说是强制转其中一台为active,
hdfs haadmin -transitionToActive --forcemanual nn1
或者
hdfs haadmin -failover nn1 nn2
失败了
还有一说是重置zkfc数据:
hdfs zkfc -formatZK
但还是不行。是不是zookeeper出问题了?我早上重新生成了zookeeper的krb5证书,可能是不行了吧,尝试重启zookeeper,果真不能启动了,于是删除了zookeeper的数据目录,重建myid文件
再重新启动,又报错:
java.io.IOException: No snapshot found, but there are log entries. Something is broken!
重置zk试试:
./bin/zkServer-initialize.sh --force
然后再重建myid文件。这下zk启动成功了。
再启动journalnode,成功。
启动namenode,失败。于是格式化:
主:sudo -u hdfs /opt/datasophon/hadoop-3.3.3/bin/hdfs namenode -format
从:sudo -u hdfs /opt/datasophon/hadoop-3.3.3/bin/hdfs namenode -bootstrapStandby
/opt/datasophon/hadoop-3.3.3/bin/hdfs zkfc -formatZK
这下终于启动成功了。