当前位置: 首页 > 知识库问答 >
问题:

纱线和Hadoop

谢同化
2023-03-14

我有几个关于向HDFS提交作业和Hadoop中的YARN架构的问题:

所以我的问题是在HDFS中纱线的组成部分是如何协同工作的:?

因此,YARN由NodeManager和Resource Manager组成。在这两个组件中:NodeManager是否运行在每个DataNode上,而ResourceManager是否运行在每个集群的每个NameNode上?因此,当任务跟踪器(在每个DataNode中)从作业跟踪器(在NameNode中)获得任务时,特定数据节点中的NodeManager将创建一个html" target="_blank">容器,该容器将从NameNode中的ResourceManager请求资源。因此,只有当数据节点中的任务跟踪器从NameNode中的作业跟踪器获得作业时,该资源管理器和节点管理器才起作用,其中NodeManager将向ResourceManager请求执行该作业的资源。这是正确的吗?

共有1个答案

吴和硕
2023-03-14

你是部分正确的。纱线被纳入图像,以避免Jobtracker的负担,它既做调度又做监控。因此,对于纱线,您没有任何工作跟踪器或任务跟踪器。作业跟踪器完成的作业现在由资源管理器完成,它有两个主要组件Scheduler(向应用程序分配资源)和ApplicationsManager(接受作业提交并在任何失败时重新启动ApplicationMaster)。现在,每个应用程序都有一个ApplicationMaster,它从调度器中协商容器(作业将在哪里运行),以便运行应用程序。

Nodemanager在每个从节点/数据节点上运行。在存在namenode的地方可能/可能不安装资源管理器。对于大型集群,我们通常需要分离主服务器,这样负载就不会转移到单个机器上。

 类似资料:
  • 我想创建一个test React应用程序,但我在安装时遇到了困难:我使用npm安装了Thread,因为Thread msi没有启动,所以: 我读了这个错误消息: 纱线产生v0。15.1错误:找不到包。C:\Users***\React中的json(或bower.json)文件位于C:\Users***\AppData\Roaming\npm\node\u modules\yarnpkg\lib\c

  • 无论我如何修改中的设置,即使用以下所有选项 我只是仍然无法让我的应用程序即Spark利用集群上的所有内核。火花执行器似乎正确地占用了所有可用内存,但每个执行器只保留一个内核,仅此而已。 以下是spark defaults中配置的选项。形态 请注意,

  • 我在AWS EMR Spark上运行一个应用程序。这里,是spark提交作业- AWS使用纱线进行资源管理。我正在查看指标(下面的屏幕截图),对纱线“容器”指标有疑问。 这里,分配的容器显示为2。但是,我使用了4个节点(3个从1个主节点),所有8个内核CPU。那么,只有2个容器是如何分配的呢?

  • 我正在学习Spark的基础知识,为了测试我的Pyspark应用程序,我在AWS上用Spark、Yarn、Hadoop、Oozie创建了一个EMR实例。我成功地能够使用spark-submit从驱动程序节点执行一个简单的pyspark应用程序。我有一个默认的/etc/spark/conf/spark-default.conf文件,该文件是由AWS使用Yarn资源管理器创建的。一切运行良好,我可以监测

  • 我有两个集群,每个集群运行不同版本的Hadoop。我正在研究一个POC,我需要了解YARN如何提供同时运行多个应用程序的能力,这是用经典的Map Reduce框架无法实现的。 Hadoop Classic:我有一个wordcount.jar文件,并在单个集群上执行(2个映射器和2个简化器)。我并行地开始了两个工作,一个幸运的开始首先得到了两个映射器,完成了任务,然后第二个工作开始。这是预期的行为。

  • 我正在使用spark submit执行以下命令: spark submit script\u测试。py—主纱线—部署模式群集spark submit script\u测试。py—主纱线簇—部署模式簇 这工作做得很好。我可以在Spark History Server UI下看到它。但是,我无法在RessourceManager UI(纱线)下看到它。 我感觉我的作业没有发送到集群,但它只在一个节点上