当前位置: 首页 > 知识库问答 >
问题:

mesos-master与zookeeper集群崩溃

杜诚
2023-03-14

我正在部署一个有3个节点的zookeeper集群。我使用它来保持mesos master的高可用性。我下载Zookeeper-3.4.6.tar.gz tarball并将其解压缩为/opt,重命名为/opt/zookeeper,进入目录,编辑conf/zoo.cfg(粘贴在下面),在dataDir中创建一个myid文件(在zoo.cfg中设置为/var/lib/zookeeper),并使用./bin/zkserver.sh start启动zookeeper,运行良好。我一个接一个地开始所有的3个节点,它们看起来都很好。我使用。/bin/zkcli.sh来连接服务器,没有问题。

但是当我启动mesos(3个主节点和3个从节点,每个节点运行一个主节点和一个从节点)时,主节点很快就崩溃了,并且在网页http://mesos_master:5050,slave选项卡中没有显示从节点。但当我只经营一个动物园管理员时,这些都很好。所以我认为这是动物园管理员群的问题。

我有3个光伏主机在我的ubuntu服务器。它们都在运行ubuntu 14.04 LTS:node-01、node-02、node-03,我在所有三个节点中都有/etc/hosts,如下所示:

172.16.2.70     node-01
172.16.2.81     node-02
172.16.2.80     node-03

我在三个节点上都安装了zookeeper,mesos。Zookeeper配置文件如下所示(所有三个节点):

tickTime=2000
dataDir=/var/lib/zookeeper
clientPort=2181
initLimit=5
syncLimit=2
server.1=node-01:2888:3888
server.2=node-02:2888:3888
server.3=node-03:2888:3888

它们可以正常启动,运行良好。然后,我使用命令行启动mesos-master服务。/bin/mesos-master.sh--zk=zk://172.16.2.70:2181,172.16.2.81:2181,172.16.2.80:2181/mesos--work_dir=/var/lib/mesos--quorum=2,几秒钟后,它给出如下错误:

F0817 15:09:19.995256  2250 master.cpp:1253] Recovery failed: Failed to recover registrar: Failed to perform fetch within 1mins
*** Check failure stack trace: ***
    @     0x7fa2b8be71a2  google::LogMessage::Fail()
    @     0x7fa2b8be70ee  google::LogMessage::SendToLog()
    @     0x7fa2b8be6af0  google::LogMessage::Flush()
    @     0x7fa2b8be9a04  google::LogMessageFatal::~LogMessageFatal()

▽
    @     0x7fa2b81a899a  mesos::internal::master::fail()

▽
    @     0x7fa2b8262f8f  _ZNSt5_BindIFPFvRKSsS1_EPKcSt12_PlaceholderILi1EEEE6__callIvJS1_EJLm0ELm1EEEET_OSt5tupleIJDpT0_EESt12_Index_tupleIJXspT1_EEE

▽
    @     0x7fa2b823fba7  _ZNSt5_BindIFPFvRKSsS1_EPKcSt12_PlaceholderILi1EEEEclIJS1_EvEET0_DpOT_
    @     0x7fa2b820f9f3  _ZZNK7process6FutureI7NothingE8onFailedISt5_BindIFPFvRKSsS6_EPKcSt12_PlaceholderILi1EEEEvEERKS2_OT_NS2_6PreferEENUlS6_E_clES6_
    @     0x7fa2b826305c  _ZNSt17_Function_handlerIFvRKSsEZNK7process6FutureI7NothingE8onFailedISt5_BindIFPFvS1_S1_EPKcSt12_PlaceholderILi1EEEEvEERKS6_OT_NS6_6PreferEEUlS1_E_E9_M_invokeERKSt9_Any_dataS1_
    @           0x4a44e7  std::function<>::operator()()
    @           0x49f3a7  _ZN7process8internal3runISt8functionIFvRKSsEEJS4_EEEvRKSt6vectorIT_SaIS8_EEDpOT0_
    @           0x499480  process::Future<>::fail()
    @     0x7fa2b806b4b4  process::Promise<>::fail()
    @     0x7fa2b826011b  process::internal::thenf<>()
    @     0x7fa2b82a0757  _ZNSt5_BindIFPFvRKSt8functionIFN7process6FutureI7NothingEERKN5mesos8internal8RegistryEEERKSt10shared_ptrINS1_7PromiseIS3_EEERKNS2_IS7_EEESB_SH_St12_PlaceholderILi1EEEE6__callIvISM_EILm0ELm1ELm2EEEET_OSt5tupleIIDpT0_EESt12_Index_tupleIIXspT1_EEE
    @     0x7fa2b82962d9  std::_Bind<>::operator()<>()
    @     0x7fa2b827ee89  std::_Function_handler<>::_M_invoke()
I0817 15:09:20.098639  2248 http.cpp:283] HTTP GET for /master/state.json from 172.16.2.84:54542 with User-Agent='Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.155 Safari/537.36'
    @     0x7fa2b8296507  std::function<>::operator()()
    @     0x7fa2b827efaf  _ZZNK7process6FutureIN5mesos8internal8RegistryEE5onAnyIRSt8functionIFvRKS4_EEvEES8_OT_NS4_6PreferEENUlS8_E_clES8_
    @     0x7fa2b82a07fe  _ZNSt17_Function_handlerIFvRKN7process6FutureIN5mesos8internal8RegistryEEEEZNKS5_5onAnyIRSt8functionIS8_EvEES7_OT_NS5_6PreferEEUlS7_E_E9_M_invokeERKSt9_Any_dataS7_
    @     0x7fa2b8296507  std::function<>::operator()()
    @     0x7fa2b82e4419  process::internal::run<>()
    @     0x7fa2b82da22a  process::Future<>::fail()
    @     0x7fa2b83136b5  std::_Mem_fn<>::operator()<>()
    @     0x7fa2b830efdf  _ZNSt5_BindIFSt7_Mem_fnIMN7process6FutureIN5mesos8internal8RegistryEEEFbRKSsEES6_St12_PlaceholderILi1EEEE6__callIbIS8_EILm0ELm1EEEET_OSt5tupleIIDpT0_EESt12_Index_tupleIIXspT1_EEE
    @     0x7fa2b8307d7f  _ZNSt5_BindIFSt7_Mem_fnIMN7process6FutureIN5mesos8internal8RegistryEEEFbRKSsEES6_St12_PlaceholderILi1EEEEclIJS8_EbEET0_DpOT_
    @     0x7fa2b82fe431  _ZZNK7process6FutureIN5mesos8internal8RegistryEE8onFailedISt5_BindIFSt7_Mem_fnIMS4_FbRKSsEES4_St12_PlaceholderILi1EEEEbEERKS4_OT_NS4_6PreferEENUlS9_E_clES9_
    @     0x7fa2b830f065  _ZNSt17_Function_handlerIFvRKSsEZNK7process6FutureIN5mesos8internal8RegistryEE8onFailedISt5_BindIFSt7_Mem_fnIMS8_FbS1_EES8_St12_PlaceholderILi1EEEEbEERKS8_OT_NS8_6PreferEEUlS1_E_E9_M_invokeERKSt9_Any_dataS1_
    @           0x4a44e7  std::function<>::operator()()
    @           0x49f3a7  _ZN7process8internal3runISt8functionIFvRKSsEEJS4_EEEvRKSt6vectorIT_SaIS8_EEDpOT0_
    @     0x7fa2b82da202  process::Future<>::fail()
    @     0x7fa2b82d2d82  process::Promise<>::fail()
Aborted

有时警告是这样的,然后以上面相同的输出崩溃:

0817 15:09:49.745750  2104 recover.cpp:111] Unable to finish the recover protocol in 10secs, retrying

我想知道zookeeper在我的情况下是否部署和运行良好,以及如何定位问题所在。欢迎任何回答和建议。谢了。

共有1个答案

穆文斌
2023-03-14

实际上,在我的例子中,这是因为我没有打开防火墙端口5050,以允许三个服务器相互通信。更新防火墙规则后,开始按预期工作。

 类似资料:
  • 本文向大家介绍ZooKeeper 集群 ?相关面试题,主要包含被问及ZooKeeper 集群 ?时的应答技巧和注意事项,需要的朋友参考一下 为了保证高可用,最好是以集群形态来部署 ZooKeeper,这样只要集群中大部分机器是可用的(能够容忍一定的机器故障),那么 ZooKeeper 本身仍然是可用的。通常 3 台服务器就可以构成一个 ZooKeeper 集群了。ZooKeeper 官方提供的架构

  • 本文向大家介绍ZooKeeper 集群角色 ?相关面试题,主要包含被问及ZooKeeper 集群角色 ?时的应答技巧和注意事项,需要的朋友参考一下 但是,在 ZooKeeper 中没有选择传统的 Master/Slave 概念,而是引入了 Leader、Follower 和 Observer 三种角色。如下图所示 ZooKeeper 集群中的所有机器通过一个 Leader 选举过程 来选定一台称为

  • 问题内容: 我在尝试在mesos集群上运行dockerized的mesos-dns时遇到了一些麻烦。 我已经在Windows 8.1主机上使用ubuntu trusty设置了2个虚拟机。我的虚拟机称为 docker-vm 和 docker-sl- vm ;其中第一个运行mesos-master,第二个运行mesos-slave。 VM有2个网卡;一个运行NAT以便通过主机访问Internet,另一

  • 问题内容: 我对SQL(Server2008)的较低层次的了解是有限的,现在我们的DBA对此提出了挑战。让我解释一下这种情况:(我已经提到一些明显的陈述,希望我是对的,但是如果您发现有问题,请告诉我)。 我们有一张桌子,上面放着人们的“法院命令”。创建表(名称:CourtOrder)时,我的创建方式如下: 然后,我将非聚集索引应用于主键(以提高效率)。我的理由是,这是一个唯一字段(主键),应该像我

  • 我正在尝试用CuratorFramework创建一个基于动物园管理员的应用程序。该应用程序必须能够在更多的节点上以仲裁的方式运行。应用程序的每个实例都嵌入了动物园管理员服务器和客户端的实例。节点在仲裁中被成功地删除。每个节点都向 /workers/active/node1写入一个EPHEMERAL节点(“活动”是由领导者创建的PERSISTENT znode)。因为当客户端连接到动物园管理员服务器

  • 我有一个Mesos集群启动和运行(1个主和2个从)与马拉松。我使用docker作为Mesos/Marathon中的容器。我有一个卡拉夫码头,将在马拉松作为集群发射。我计划用织物的地窖作为卡拉夫的聚类解决方案。我的问题是 提前致谢