当前位置: 首页 > 知识库问答 >
问题:

集群创建HdInsight和核心辞职。调整apache spark提交

端木骞尧
2023-03-14

我想使用Spark处理Azure Hd Insight群集中的250gb gzip(filename.json.gzip)文件。但我做不到。

我猜是因为内核、ram和vCPU之间的关系不好,所以我想知道要创建的更好的集群和要发送的Spark配置。

目前我正在使用此实例:

  • 集群E8a v4的6个节点(8核,64 GB RAM)

我的Spark配置是:

    < li >驱动程序内存:10Gb < li >驱动程序内核:7个 < li >执行器内存:10Gb < li >执行器内核:7个 执行人数量:7

那么,在Azure HDInsight群集(链接到我可以创建的所有可用群集)和Spark提交配置中有更好的选择吗?

共有1个答案

危飞跃
2023-03-14

Apache Spark作业的性能取决于多种因素。这些性能因素包括:数据的存储方式、集群的配置方式以及处理数据时使用的操作。

您可能面临的常见挑战包括:由于执行程序大小不正确而导致的内存约束、长时间运行的操作以及导致笛卡尔操作的任务。

还有许多优化可以帮助您克服这些挑战,例如缓存和允许数据倾斜。

有关更多详细信息,请参考HDInsight中的优化Apache Spark作业。

 类似资料:
  • 绝影的话一出口,陈董的心猛地震了一下,但陈董就是陈董,很快他就让自己平静下来,虽然语气中还是透着一丝难以察觉的不安:“嗯。说说吧,什么原因?” 绝影没有回答他的正面问题,继续说道:“我知道在这个时候跟你提这个是很不合适的,本来想这个CASE做完了再提,但这次我是很认真地考虑过,正因为很认真,所以我还是先提出来,以便公司安排交接,也是对公司负责。我也知道,这句话一出口,我们之间很多东西都会发生变化了

  • 每次CodeIgniter运行时都有很多基础类作为核心框架的一部分被自动初始化.但你也可以使用经过你修改的类来替换甚至扩展这些原始的核心系统类. 大多数用户一般不会有这种需求,但对于那些想较大幅度的改变CodeIgniter的人来说,我们依然提供了替换和扩展核心系统类的选择. 注意:  改变系统核心类会产生很大影响,所以在你做之前必须清楚地知道自己正在做什么. 系统类清单 以下是系统核心文件的清单

  • 每次 CodeIgniter 运行时,都有一些基础类伴随着核心框架自动的被初始化。但你也可以使用你自己类来替代这些核心类或者扩展这些核心类。 大多数用户一般不会有这种需求,但对于那些想较大幅度的改变 CodeIgniter 的人来说,我们依然提供了替换和扩展核心类的选择。 注解 改变系统核心类会产生很大影响,所以在你做之前必须清楚地知道自己正在做什么。 系统类清单 以下是系统核心文件的清单,它们在

  • OrientDB中的集群是一个重要的概念,用于存储记录,文档或顶点。 简而言之,群集是存储一组记录的地方。 默认情况下,OrientDB将为每个类创建一个群集。 一个类的所有记录都存储在同一个簇中,它与该类名称相同。最多可以在数据库中创建个群集。 是用于创建具有特定名称的集群的命令。 创建群集后,可以使用群集通过在创建任何数据模型期间指定名称来保存记录。 如果要将新群集添加到类中,请使用命令和命令

  • 创建 Swarm 集群 阅读 基本概念 一节我们知道 Swarm 集群由 管理节点 和 工作节点 组成。本节我们来创建一个包含一个管理节点和两个工作节点的最小 Swarm 集群。 初始化集群 在 Docker Machine 一节中我们了解到 Docker Machine 可以在数秒内创建一个虚拟的 Docker 主机,下面我们使用它来创建三个 Docker 主机,并加入到集群中。 我们首先创建一

  • 使用 ceph-deploy 的第一步就是新建一个集群,新集群具备: 一个 Ceph 配置文件,以及 一个监视器密钥环。 Ceph 配置文件至少要包含: 它自己的文件系统 ID ( fsid ) 最初的监视器(们)及其主机名(们),以及 最初的监视器及其 IP 地址。 详情见监视器配置参考。 ceph-deploy 工具也创建了一个监视器密钥环并置于 [mon.] 内,详情见 Cephx 手册。