当前位置: 首页 > 知识库问答 >
问题:

EMR 4.1.0+Spark 1.5.0+纱线资源分配

易招
2023-03-14

我正在使用EMR 4.1.0+spark 1.5.0+YARN来处理大数据。我正试图利用全集群,但有些如何纱没有分配所有的资源。

  • 使用4个C3.8X大型EC2从机节点(每个60.0GB内存和32个核)
  • 根据本文,我在EMR集群中设置了以下参数

yarn.nodemanager.resource.memory-MB->53856 yarn.nodemanager.resource.cpu-vcores->26 yarn.scheduler.capacity.resource-calculator->org.apache.hadoop.yarn.util.resource.dominantresourceCalculator(因此yarn可以同时管理内存和内核)

我错过了什么?

谢谢你!

共有1个答案

金阳曜
2023-03-14

从这里看,你的基地应该在53248米。此外,必须考虑10%的内存开销(spark.yarn.executor.MemoryOverseude)。53248*.9=47932M,可以在每个节点上分配。如果您为每个执行器分配8347M,那么每个节点只能包含其中的5个。47932-5*8347=6197M,这没有足够空闲内存来启动第6个执行程序。最后的3个执行程序(每个节点一个)没有启动,因为没有足够的内存供它们启动。如果希望有24个容器,请使用--executor-memory 7987M启动

注意,如果使用此配置,您将有6个未使用的核心/节点。这个电子表格可以帮助您找到任何类型/大小的集群的最佳配置

https://docs.google.com/spreadsheets/d/1vh7qly308horpu5volig0ceolrzen-nbktrfkxhrry4/edit#gid=1524766257

 类似资料:
  • 下表列出了一些方便的URL以及其内容的简短描述。 这些URL中的大多数也列在本书的其他位置,但此表将它们组合在一个独立的位置。 URL Descripton http://freeradius.org FreeRADIUS项目的主页。 http://wiki.freeradius.org FreeRADIUS项目的Wiki,用作文档的主要来源。 http://wiki.freeradius.org

  • 我有几个关于向HDFS提交作业和Hadoop中的YARN架构的问题: 所以我的问题是在HDFS中纱线的组成部分是如何协同工作的:? 因此,YARN由NodeManager和Resource Manager组成。在这两个组件中:NodeManager是否运行在每个DataNode上,而ResourceManager是否运行在每个集群的每个NameNode上?因此,当任务跟踪器(在每个DataNode

  • 我在Cloudera CDH5.3集群上运行Spark,使用YARN作为资源管理器。我正在用Python(PySpark)开发Spark应用程序。 我正在运行一个提交命令,如下所示: 如何确保作业在集群中并行运行?

  • 我想创建一个test React应用程序,但我在安装时遇到了困难:我使用npm安装了Thread,因为Thread msi没有启动,所以: 我读了这个错误消息: 纱线产生v0。15.1错误:找不到包。C:\Users***\React中的json(或bower.json)文件位于C:\Users***\AppData\Roaming\npm\node\u modules\yarnpkg\lib\c

  • 我正在尝试为kubernetes吊舱中运行的服务分配CPU资源。服务大多是基于nodejs的RESTendpoint,带有一些DB操作。 在负载测试期间,尝试在100米和1000米之间对吊舱进行不同的组合。对于每秒的预期请求数,当值小于 我不知道应该根据什么来选择特定的CPU资源值。有人能在这方面帮助我吗?

  • 我试图动态地获取给定数量的资源,但我无法理解语法。在资源集动态分配中,每个单元由其所属的资源集的名称表示。在图中,查封块将查封集合“resourcePool”中的3个资源。 我需要为每一个特工抓取特定数量的资源。然后我尝试创建资源池对象的ArrayList,并将其传递到动态分配中,但由于类型不匹配,因此无法工作。 例如,假设我有一个需要4个资源的代理,所以需要的表达式是:{resourcePool