当前位置: 首页 > 知识库问答 >
问题:

如何在Apache Spark中拆分输入文件

左丘边浩
2023-03-14

共有1个答案

易宣
2023-03-14

Spark的抽象并没有提供数据的显式拆分。但是,您可以通过几种方式来控制并行性。

假设您使用的是YARN,HDFS文件会自动拆分为HDFS块,并且在Spark操作运行时并发处理这些块。

除了HDFS并行性之外,考虑使用PAIRRDD的分区器。PairRDD是键值对的RDD的数据类型,分区器管理从键到分区的映射。默认分区器读取spark.Default.parallelism。分区器帮助控制数据的分布及其在pairrdd特定操作中的位置,例如reducebykey

 类似资料:
  • 将输入值绑定到ng模型时,如下所示: 如何将输入文本绑定为数组?所以如果我输入,得到的模型将是。 现在我就是这样做到的: 在我的控制器里: 它工作正常,但我不认为这是最佳实践,因为我正在制作一个变量,然后硬编码目标数组。 是否可以将输入的模型设置到数组中,然后让输入在绑定到作用域之前通过函数?

  • 这个问题似乎不是关于特定的编程问题、软件算法或主要由程序员使用的软件工具。如果您认为该问题将在另一个Stack Exchange站点上讨论,您可以留下评论,解释该问题可以在何处回答。 未解决原始关闭原因 我有一个大小为2.5 GB的日志文件。有没有办法使用windows命令提示符将此文件拆分为更小的文件?

  • 我试图从外部文本文件中读取dataframe模式,并使用它创建一个dataframe。然而,我无法理解如何将string转换为StructType。 我正在使用Spark 2.1和Java。这是代码片段。 如何将上述代码中的struct2转换为StructType? 结构文件包含这个

  • 我正在尝试用Python以编程方式拆分wav文件。基于stackoverflow的提示以及Python wave模块的文档,我将执行以下操作 我迭代了许多不同的起始值和结束值,并以这种方式从原始文件中提取音频块。奇怪的是,这种技术对某些块非常有效,而对其他块产生垃圾白噪声。此外,没有明显的模式表明起始位置和结束位置会产生白噪声,只是输入文件会持续产生白噪声。 有人以前经历过这种行为吗?或者知道我做

  • 问题内容: 我需要将整个表从一个MySQL数据库移动到另一个数据库。我没有完全访问第二个权限,只有phpMyAdmin访问权限。我只能上传(压缩)小于2MB的sql文件。但是,第一个数据库表的mysqldump的压缩输出大于10MB。 有没有办法将mysqldump的输出分成较小的文件?我无法使用split(1),因为无法将文件分类(1)到远程服务器上。 还是我错过了其他解决方案? 编辑 第一个发