我很困惑我应该使用哪种方法来配置火花应用程序参数。
让我们考虑以下集群配置:10个节点、每个节点16个内核和每个节点64GB RAM(例如https://spoddutur.github.io/spark-notes/distribution_of_executors_cores_and_memory_for_spark_application.html0
因此,建议配置为:29个执行器,每个18GB内存,每个5核
考虑另一个集群配置的示例:6个节点、25个核心节点和每个节点125 GB内存(示例来自https://researchcomputing.princeton.edu/computational-hardware/hadoop/spark-memory)
推荐的配置是;--num-ex董事者30--exutor-cores 4--执行器-内存24G。
问题:如果我们使用示例1中应用的规则并计算示例2中推荐的配置,结果将非常不同。事实上,如果我们--executor cores=4,然后我们从每个节点中减去1个core 6*24=144,那么我们得到144/4=26个执行器。在为AM留下1个核心后==
对于6个节点、25个核心节点和125 GB,如果分解为每个执行器“4”个核心,则每个节点保留“1”个核心。然后6*24=144(考虑总芯数)。144/4=“36”执行人不是“26”。如果你去掉“1”执行人,那么它将是“35”。因此,对于每个节点(Node1到Node5=“6”执行器Node6=“5”执行器1(我们省略了它)或任何其他节点都会携带5个执行器,剩下6个),就像这样。。
在配置spark应用程序时,我试图从集群中挤出每一点,但似乎我并没有完全正确地理解每一件事。因此,我正在AWS EMR集群上运行该应用程序,该集群具有1个主节点和2个m3类型的核心节点。xlarge(每个节点15G ram和4个vCPU)。这意味着,默认情况下,每个节点上为纱线调度的应用程序保留11.25 GB。因此,主节点仅由资源管理器(纱线)使用,这意味着剩余的2个核心节点将用于调度应用程序(
我在阅读片段文档时发现了以下内容: 注意:如果在片段中需要上下文对象,可以调用getContext()。但是,要注意的是,只有当片段附加到活动时才调用getContext()。当片段尚未附加或在其生命周期结束时分离时,getContext()返回null 所以我的问题是在片段中调用getContext()的最佳位置是什么。就像我可以在onCreateView中调用它一样,或者在任何其他地方调用on
问题内容: 您发现运行Eclipse的最佳JVM设置是什么? 问题答案: Eclipse Helios 3.6和3.6.x设置 替代文字http://www.eclipse.org/home/promotions/friends-helios/helios.png 在对Eclipse Ganymede 3.4.x和Eclipse Galileo 3.5.x进行设置之后,下面是对Eclipse He
问题内容: 我目前正在Jenkins管道上进行POC,以弄清楚如何在CI环境中配置我的产品。管道的要求是: SVN的签出代码 编译程序 部署到服务器上的预定义位置 更改数据库配置(甚至可能尚未识别其他配置)以指向适当的数据库 执行程序 执行质量检查流程以验证输出 我目前难以达到上述第4点。每个程序的所有与DB相关的配置都驻留在database.xml文件中,并且一个程序可以连接到1个或多个DB。
问题内容: 我目前正在使用基本cgi开发网站以显示页面。我希望将网站更改为具有更好的(读取动态)界面。 您会推荐什么技术(如果不是AJAX)和/或教程来入门? 问题答案: 最好采用以下方法来处理AJAX: 在Javascript语言的。 对DOM的理解。 对XMLHttpRequest的理解。 一旦掌握了这些知识,就可以对要使用的API或框架做出明智的决定。后端并不重要,但我建议您使用JSON作为
问题内容: 最近的JVM有很多用于垃圾收集的XX参数(例如,请参见此处),但是哪些选项可以使客户端Swing应用程序真正更好地执行? 我应该注意到,让客户端Java应用程序真正困扰我的一件事是世界级垃圾回收的大量延迟。在Intelli-J IDEA中,我看到它进行了三分钟或更长时间。 编辑:感谢您的所有答复。只是为了报告一下,我使用了此处建议的设置,将IDEA的CMS垃圾收集器(这是大多数阅读此问