问题：

如何在Apache Spark中拆分输入文件

左丘边浩

2023-03-14

共有1个答案

易宣

2023-03-14

Spark的抽象并没有提供数据的显式拆分。但是，您可以通过几种方式来控制并行性。

假设您使用的是YARN，HDFS文件会自动拆分为HDFS块，并且在Spark操作运行时并发处理这些块。

除了HDFS并行性之外，考虑使用PAIRRDD的分区器。PairRDD是键值对的RDD的数据类型，分区器管理从键到分区的映射。默认分区器读取spark.Default.parallelism。分区器帮助控制数据的分布及其在pairrdd特定操作中的位置，例如reducebykey。

类似资料：

在Angular中，如何有效地将输入项拆分为数组

将输入值绑定到ng模型时，如下所示：如何将输入文本绑定为数组？所以如果我输入，得到的模型将是。现在我就是这样做到的：在我的控制器里：它工作正常，但我不认为这是最佳实践，因为我正在制作一个变量，然后硬编码目标数组。是否可以将输入的模型设置到数组中，然后让输入在绑定到作用域之前通过函数？
如何在windows中拆分大文本文件？[关闭]

这个问题似乎不是关于特定的编程问题、软件算法或主要由程序员使用的软件工具。如果您认为该问题将在另一个Stack Exchange站点上讨论，您可以留下评论，解释该问题可以在何处回答。未解决原始关闭原因我有一个大小为2.5 GB的日志文件。有没有办法使用windows命令提示符将此文件拆分为更小的文件？
在java中拆分文件
如何在ApacheSpark中从外部文本文件中读取structType模式？

我试图从外部文本文件中读取dataframe模式，并使用它创建一个dataframe。然而，我无法理解如何将string转换为StructType。我正在使用Spark 2.1和Java。这是代码片段。如何将上述代码中的struct2转换为StructType？结构文件包含这个
在python中拆分wav文件

我正在尝试用Python以编程方式拆分wav文件。基于stackoverflow的提示以及Python wave模块的文档，我将执行以下操作我迭代了许多不同的起始值和结束值，并以这种方式从原始文件中提取音频块。奇怪的是，这种技术对某些块非常有效，而对其他块产生垃圾白噪声。此外，没有明显的模式表明起始位置和结束位置会产生白噪声，只是输入文件会持续产生白噪声。有人以前经历过这种行为吗？或者知道我做
如何将mysqldump的输出拆分为较小的文件？

问题内容：我需要将整个表从一个MySQL数据库移动到另一个数据库。我没有完全访问第二个权限，只有phpMyAdmin访问权限。我只能上传（压缩）小于2MB的sql文件。但是，第一个数据库表的mysqldump的压缩输出大于10MB。有没有办法将mysqldump的输出分成较小的文件？我无法使用split（1），因为无法将文件分类（1）到远程服务器上。还是我错过了其他解决方案？编辑第一个发

如何在Apache Spark中拆分输入文件

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档