当前位置: 首页 > 知识库问答 >
问题:

指定spark用于溢出RDD的文件系统

郭麒
2023-03-14

我们检讨了现有的SO问题:

  • 理解Spark shuffle溢出已过时。
  • 为什么SPARK缓存RDD溢出到磁盘?和使用SSD进行SPARK RDD讨论溢出行为,但不讨论文件溢出的位置。
  • Spark shuffle溢出度量是一个未回答的问题,显示溢出UI,但未提供我们请求的详细信息。

共有1个答案

白志勇
2023-03-14

签出https://spark.apache.org/docs/2.2.1/configuration.html#application-properties并搜索

spark.local.dir

这默认为/tmp,尝试将其设置为EBS的位置

注意:在Spark1.0和更高版本中,这将被集群管理器设置的SPARK_LOCAL_DIRS(Standalone,Mesos)或LOCAL_DIRS(YARN)环境变量覆盖。

 类似资料:
  • 问题内容: 我有使用Spark生成的RDD。现在,如果我将此RDD写入csv文件,则可以使用“ saveAsTextFile()”之类的一些方法,该方法将csv文件输出到HDFS。 我想将文件写入本地文件系统,以便我的SSIS进程可以从系统中选择文件并将它们加载到DB中。 我目前无法使用sqoop。 除了编写Shell脚本之外,Java中是否还有其他地方可以做到这一点? 需要任何清晰度,请告知。

  • 问题内容: 我正在探索Spark进行批处理。我正在使用独立模式在本地计算机上运行spark。 我正在尝试使用saveTextFile()方法将Spark RDD转换为单个文件[最终输出],但无法正常工作。 例如,如果我有多个分区,我们如何获得一个文件作为最终输出。 更新: 我尝试了以下方法,但是我得到了空指针异常。 例外是: 此致Shankar 问题答案: 您可以使用方法保存到单个文件中。这样,您

  • 我对Spark和Python是新手。我已经在Windows上安装了python 3.5.1和Spark-1.6.0-bin-Hadoop2.4。 当我从python shell执行sc=SparkContext(“local”,“simple app”)时,我得到了以下错误。 文件“”,第1行,在 文件“C:\spark-1.6.0-bin-hadoop2.4\python\pyspark\con

  • 主要内容:1.RDD特点:,2.RDD的 5大属性,3.RDD的执行原理,4.Spark的核心组件1.RDD特点: 可变: 存储的弹性 容错的弹性 计算的弹性 分片的弹性 RDD 代码中是一个抽象类, 代表弹性的, 不可变, 可分区, 里面的元素可并行计算的集合, 为弹性分布式数据集。 RDD 不保存数据, 但是有血缘关系。 不可变的是逻辑, 如果想加入新的逻辑, 必须封装。 2.RDD的 5大属性 分区列表 分区计算函数 多个RDD有依赖关系 分区器: 一个分区的规则, 和Kafka 类似

  • 如有任何建议或帮助,将不胜感激。 曼迪

  • 问题内容: 我有一个名为 的文件。 它与我的文件位于同一目录中。 但是,当我尝试通过以下代码访问它时,找不到此文件,发生错误: 这是我的代码: 问题答案: 直接将word.txt作为项目根文件夹的子级和src的对等方放置 免责声明:我想解释一下为什么这种方法适用于这种特殊情况,以及为什么它可能不适用于其他情况。 工作原理: 使用或任何其他变体时,你正在文件系统上相对于“工作目录”查找文件。工作目录