当前位置: 首页 > 面试题库 >

spark工作机制?

葛炜
2023-03-14
本文向大家介绍spark工作机制?相关面试题,主要包含被问及spark工作机制?时的应答技巧和注意事项,需要的朋友参考一下

用户在client端提交作业后,会由Driver运行main方法并创建spark context上下文。 执行add算子,形成dag图输入dagscheduler,按照add之间的依赖关系划分stage输入task scheduler。 task scheduler会将stage划分为task set分发到各个节点的executor中执行。

spark的优化怎么做? 通过spark-env文件、程序中sparkconf和set property设置。 (1)计算量大,形成的lineage过大应该给已经缓存了的rdd添加checkpoint,以减少容错带来的开销。 (2)小分区合并,过小的分区造成过多的切换任务开销,使用repartition。

 

 

 类似资料:
  • 我正在为Spark Streaming作业构建指标系统,在系统中,指标收集在每个执行程序中,因此需要在每个执行程序中初始化指标源(用于收集指标的类)。 度量源被打包在一个jar中,当提交作业时,jar使用参数'--jars'从本地发送到每个执行器,但是,执行器在jar到达之前开始初始化度量源类,因此,它会抛出类未找到异常。 似乎如果执行者可以等到所有资源都准备好,问题就会得到解决,但我真的不知道该

  • 我无法通过Spark(2.1.0)连接到Phoenix(4.10),基于Phoenix网站上的“使用Data Source API作为DataFrame加载”示例。我使用的是lastet(Phoenix4.10)和Hbase 1.2.5。我可以通过Phoenix(sqlline客户端)在Hbase中创建一个表。Spark内返回的错误如下: 更新1:如果通过HBase删除System.Mutex表,

  • 我正在调查使用spark作为REST API后端的适用性。其中的一个问题似乎是Spark的FIFO调度方法。这意味着,如果一个大任务正在执行中,那么在那个重任务完成之前,任何小任务都无法完成。根据https://spark.apache.org/docs/latest/job-scheduling.html,一个公平的调度程序应该可以解决这个问题。然而,我没有注意到这改变了什么。我配置的排定程序是

  • 我知道Spark可以使用Scala、Python和Java来操作。另外,RDDs用于存储数据。 但是请解释一下,Spark的架构是什么,内部是如何工作的。

  • 我正在尝试使用Spark-CSV(https://github.com/databricks/Spark-CSV)将DataFrame写成CSV文件 而不是 伦敦 哥本哈根 莫斯科

  • 问题内容: 描述为: “共享秘密”的存储库,这是一种在不使用反射的情况下在另一个程序包中调用实现私有方法的机制。package- private类实现了一个公共接口,并提供了在该包内调用package- private方法的能力。实现该接口的对象是通过限制访问的第三包提供的。该框架避免了为此目的使用反射的主要缺点,即损失了编译时检查。 有人可以提供一个示例来说明此机制如何使一个包中的类访问另一个包