当前位置: 首页 > 知识库问答 >
问题:

当mesos主机和代理同时宕机时,mesos集群是否不可访问?

祁远
2023-03-14

我试图用三台机器实现HA,并拥有如下所示的主从机器。我正在使用VM进行本地测试设置,我的观察如下。

案例1:

>

  • 案例1.1:当我关闭VM m1机器时,其中一个非领导变成了领导,能够访问集群,工作正常。

    案例1.2:我关闭m2或m3(任何一个具有非主从的vm)。我在m3或m2的网页上看到消息“目前没有大师领先”。当我试图访问m1和任何一台可用机器(m2或m3)中的mesos时。

    案例2:

    案例2.2:当我关闭m2(leader with slave)时,群集变得不可用,错误消息是网页上的“No Master is recurrent leader”。

    案例2.3:当我关闭m3(非领导与从),集群变得不可用,错误消息‘没有主是当前领导’在网页上。

    很抱歉尝试只有3台机器的HA和冗长的问题解释。

    以下是配置。

    大师:

    m1:mesos-master--IP=192.168.1.36--hostname=192.168.1.36--port=6060--quorum=2-cluster=mesoscluster--ZK=ZK:/192.168.1.36:2181,192.168.1.42:2181,192.168.1.45:2181/mesos--work_dir=/opt/ncms/mesosworkdir/log_dir=/opt/ncms/mesosworkdir/logs/ncms/mesosworkdir/logs/ncms/mesosworkdir/logs

    m2:mesos-master--IP=192.168.1.42--hostname=192.168.1.42--port=6060--quorum=2-cluster=mesoscluster--ZK=ZK:/192.168.1.36:2181,192.168.1.42:2181,192.168.1.45:2181/mesos--work_dir=/opt/ncms/mesosworkdir/log_dir=/opt/ncms/mesosworkdir/logs/ncms/mesosworkdir/logs/ncms/mesosworkdir/logs

    m3:mesos-master--IP=192.168.1.45--hostname=192.168.1.45--port=6060--quorum=2-cluster=mesoscluster--ZK=ZK:/192.168.1.36:2181,192.168.1.42:2181,192.168.1.45:2181/mesos--work_dir=/opt/ncms/mesosworkdir/log_dir=/opt/ncms/mesosworkdir/logs/ncms/mesosworkdir/logs/ncms/mesosworkdir/logs

    奴隶:

    m2:mesos-slave-ip=192.168.1.42--hostname=192.168.1.42--executor_registration_timeout=10mins--systemd_enable_support=false--master=zk://192.168.1.42:2181,192.168.1.45:2181,192.168.1.36:2181/mesos--containerizers=mesos,docker

    m3:mesos-slave-ip=192.168.1.45-hostname=192.168.1.45-executor_registration_timeout=10mins-systemd_enable_support=false--master=zk://192.168.1.42:2181,192.168.1.45:2181,192.168.1.36:2181/mesos-containerizers=mesos,docker

    动物园管理员配置:

    TickTime=2000

    initlimit=10

    主机:Windows 7(64GB RAM、24个内核)

    虚拟盒:每个vm(m1、m2、m3)有2个内核和2 GB RHEL 7.2的RAM

  • 共有1个答案

    赖俊
    2023-03-14

    在您描述的方案中,活动主机的数量低于仲裁,在您的情况下为2。这被认为是一种例外情况,某些操作将无法成功,例如,修改分布式注册表的任何操作。

     类似资料:
    • 我们有一个Hadoop集群,数据节点为275个节点(55Tb总内存,12000个VCore)。这个集群与几个项目共享,我们有一个YARN队列分配给我们,资源有限。 为了提高性能,我们正在考虑为我们的项目构建一个单独的Spark集群(在同一网络中的Mesos上)并访问Hadoop集群上的HDFS数据。 正如Spark文档中提到的:https://spark.apache.org/docs/lates

    • 另外,我在每个节点的“/var/lib/zookeeper”中创建了一个“myid”文件。例如,对于“150.20.11.157”,其ID在myid文件中为“1”。我也在码头上安装了Mesos和Spark。我也有一个由这三个节点组成的Mesos集群。我在这个文件中定义了从节点的IP地址:“spark/conf/slaves” 我在“spark/conf/spark-env.sh”中添加了以下几行:

    • 问题内容: 我在尝试在mesos集群上运行dockerized的mesos-dns时遇到了一些麻烦。 我已经在Windows 8.1主机上使用ubuntu trusty设置了2个虚拟机。我的虚拟机称为 docker-vm 和 docker-sl- vm ;其中第一个运行mesos-master,第二个运行mesos-slave。 VM有2个网卡;一个运行NAT以便通过主机访问Internet,另一

    • 我正在部署一个有3个节点的zookeeper集群。我使用它来保持mesos master的高可用性。我下载Zookeeper-3.4.6.tar.gz tarball并将其解压缩为/opt,重命名为/opt/zookeeper,进入目录,编辑conf/zoo.cfg(粘贴在下面),在dataDir中创建一个myid文件(在zoo.cfg中设置为/var/lib/zookeeper),并使用./bi

    • Apache Mesos和Nomad有什么不同? Mesos不支持联邦或多个故障隔离区。Nomad支持多数据中心和多区域配置,以实现故障隔离和可伸缩性。 不确定这是否仍然适用于Apache Mesos?

    • 我有一个Mesos集群启动和运行(1个主和2个从)与马拉松。我使用docker作为Mesos/Marathon中的容器。我有一个卡拉夫码头,将在马拉松作为集群发射。我计划用织物的地窖作为卡拉夫的聚类解决方案。我的问题是 提前致谢