问题：

Spark:hdfs集群模式

巫马泓

2023-03-14

我刚刚开始使用Apache Spark。我正在使用集群模式(主机、从机1、从机2)，我想处理一个保存在Hadoop (hdfs)中的大文件。我正在使用SparkContext中的textFile方法；在文件处理过程中，我监控了节点，可以看到只有slave2在工作。处理后，slave2有任务，但slave1没有任务。如果我不使用hdfs，而是使用本地文件，那么两个从机同时工作。我不明白为什么这种行为。拜托，有人能给我点提示吗？

共有1个答案

沈国安

2023-03-14

该行为的主要原因是数据局部性的概念。当Spark的应用程序主机请求创建新的执行程序时，会尝试将它们分配到数据所在的同一节点中。

也就是说，在你的例子中，HDFS很可能已经在同一个节点上写入了文件的所有块。因此，Spark将实例化该节点上的执行器。相反，如果您使用本地文件，它将存在于所有节点中，因此数据局部性不再是问题。

类似资料：

带有Docker群模式的Redis集群

我是Docker Swarm的新手。我试图用compose文件在Docker swarm上部署redis集群。我希望redis集群使用端口6380，所以我配置了端口，并让它在compose文件中挂载redis配置文件。但是当我运行时，我得到了一个错误的声明，“对不起，集群配置文件redis-node.conf已经被不同的Redis集群节点使用了。请确保不同的节点使用不同的集群配置文件。” 这是我
集群模式下的Redis流

Redis streams是否受益于群集模式？假设您有10个流，它们是分布在集群中还是全部分布在同一个节点上？我计划使用Redis streams实现真正的高吞吐量（每秒200万条消息），因此我担心Redis streams在这种规模下的性能。如果Redis streams不能在集群模式下进行开箱即用的扩展，那么任何关于水平扩展Redis streams的指导都会非常棒。
集群与非集群

问题内容：我对SQL（Server2008）的较低层次的了解是有限的，现在我们的DBA对此提出了挑战。让我解释一下这种情况：（我已经提到一些明显的陈述，希望我是对的，但是如果您发现有问题，请告诉我）。我们有一张桌子，上面放着人们的“法院命令”。创建表（名称：CourtOrder）时，我的创建方式如下：然后，我将非聚集索引应用于主键（以提高效率）。我的理由是，这是一个唯一字段（主键），应该像我
融合模式注册表群集模式

我使用来自Confluent的Kafka Connect来使用Kafka流并以拼花格式写入HDFS。我正在1个节点中使用架构注册表服务，它运行良好。现在我想将模式注册表分发到集群模式以处理故障转移。关于如何实现这一点的任何链接或片段都将非常有用。
无法访问Redis（启用群集模式）群集的终结点

我有1个VPC——在1个EC2实例（amazon ami）和1个Redis（支持群集模式）下，使用Auth（密码）和对所有IP:端口开放的安全组（仅用于测试）——设置非常简单。 telnet在我的EC2实例（配置endpoint）的6379端口工作无法使用Redis CLI连接到Redis服务器-无论是配置endpoint还是节点endpoint都无关紧要；使用v.5.0.4版本的Redis C
1.8.3 集群&集群发现

Cluster Cluster.EdsClusterConfig Cluster.OutlierDetection Cluster.LbSubsetConfig Cluster.LbSubsetConfig.LbSubsetSelector Cluster.LbSubsetConfig.LbSubsetFallbackPolicy (Enum) Cluster.RingHashLbConfig C
集群

一、负载均衡负载均衡算法转发实现二、集群下的 Session 管理 Sticky Session Session Replication Session Server 一、负载均衡集群中的应用服务器（节点）通常被设计成无状态，用户可以请求任何一个节点。负载均衡器会根据集群中每个节点的负载情况，将用户请求转发到合适的节点上。负载均衡器可以用来实现高可用以及伸缩性：高可用：当某个节点故障
集群

集群为一组LBAgent转发节点的集合。负载均衡集群是一组转发节点LBAgent的集合，一般情况下一个集群下配置两个LBAgent节点互为主备即可，同一集群下的LBAgent节点的VRRP路由ID必须相同。入口：在云管平台单击左上角导航菜单，在弹出的左侧菜单栏中单击 “网络/负载均衡集群/集群” 菜单项，进入集群页面。创建集群该功能用于创建负载均衡集群。单击列表上方 “新建” 按钮，弹出

Spark:hdfs集群模式

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档