当前位置: 首页 > 知识库问答 >
问题:

使用不同机器配置的hadoop集群

丁恩
2023-03-14

我有两台linux机器,都有不同的配置

机器1:16 GB RAM、4个虚拟内核和40 GB HDD(主从机)

我想运行我的spark应用程序,并尽可能多地利用虚拟内核和内存,但我无法确定是什么设置。

我的spark代码类似于:

conf = SparkConf().setAppName("Simple Application")
sc = SparkContext('spark://master:7077')
hc = HiveContext(sc)
sqlContext = SQLContext(sc)
spark = SparkSession.builder.appName("SimpleApplication").master("yarn-cluster").getOrCreate()

到目前为止,我尝试了以下几种:

任何帮助都将不胜感激。

共有1个答案

华建同
2023-03-14

当我使用上面的集群配置处理我的2 GB文件时,它需要比8分钟稍长一些,尽管我预期它需要更少的时间。

不清楚您的文件存储在何处。

我看到您使用的是Spark独立模式,所以我假设它没有在HDFS上拆分为大约16个块(给定128MB的块大小)。

就最优设置而言,在内核和内存以及执行器数量之间存在折衷,但对于特定的工作负载没有神奇的数字,您将始终受到集群中最小节点的限制,请记住,在计算大小时应考虑Spark驱动程序和操作系统上其他进程的内存

 类似资料:
  • 主要内容:下载Hadoop,从命令提示符下载Hadoop,安装Hadoop,验证Hadoop安装,在Hadoop上安装SolrSolr可以和Hadoop一起使用。 由于Hadoop是用于处理大量数据,Solr帮助我们从这么大数据源中找到所需的信息。在本节中,我们将了解如何在系统上安装Hadoop。 下载Hadoop 下面给出了如何将Hadoop下载到系统中的步骤。 第1步 - 打开Hadoop主页 - www.hadoop.apache.org/。 单击链接版本,如下面的屏幕截图中突出显示。 它

  • 问题内容: 我目前正在将构建过程从Ant迁移到Maven。我们的应用程序已部署到许多不同的客户,每个客户都有一组独特的依赖项和配置。我可以实现不同的配置文件以对它们进行建模,并从中构建所需的战争。但是,这是一个在编译时发生的过程。 每个版本都标记为SVN,并已上传到我们的内部Nexus存储库。我希望能够采用定义的发行版并根据配置文件对其进行重构。有没有办法做这样的事情?除了个人资料外,我还应该使用

  • 在我们的一个基于spring boot的服务中,我们打算同时连接到两个不同的kafka集群。这些集群都有自己的引导服务器集、主题配置等。它们之间没有任何关联,就像这个问题中的情况一样。 我将有不同类型的消息从不同主题名称的每个集群中读取。可能有或可能没有多个生产者通过此服务连接到两个集群,但我们肯定每个集群至少有一个消费者。 我想知道如何在application.yml中定义属性以满足此设置,以便

  • 本文向大家介绍Hadoop平台集群配置、环境变量设置?相关面试题,主要包含被问及Hadoop平台集群配置、环境变量设置?时的应答技巧和注意事项,需要的朋友参考一下 zookeeper:修改zoo.cfg文件,配置dataDir,和各个zk节点的server地址端口,tickTime心跳时间默认是2000ms,其他超时的时间都是以这个为基础的整数倍,之后再dataDir对应目录下写入myid文件和z

  • 因此,我正在运行一个Hadoop查询,它需要Amazon EC2上运行的ElasticSearch索引中的一个字段的信息。问题是,我总是得到“没有一个配置的节点可用”的错误。更令人沮丧的是,我几天前还在工作,但由于缺乏CPU操作,它在查询过程中退出了。但我的合作伙伴不知道这一点,所以他试图找出为什么它在查询中失去连接似乎导致了这个问题。他也不记得自己做了什么。 我知道以前有人问过这个问题,但我确信

  • 我目前想实现这样的东西: 但是在中,我们将重点关注authProvider()方法和configure() 随着最近的消息,已被弃用。经过研究,我发现了一件事: 所以我也不得不这么做 这解决了另一个问题。但现在,我发现了这个错误。 这也是我的用户服务 你们介意帮我解决这个问题!谢谢:) 我还想提一下,我还没有在网上找到答案