问题：

RDD火花。违约Spark数据帧的并行等效

孙梓

2023-03-14

Narrow转换（映射、过滤器等）的SparkSQL数据帧是否有“spark.default.parallelism”等价物？

显然，RDD和DataFrame之间的分区控制是不同的。数据帧具有spark。sql。洗牌用于控制分区的分区（如果我理解正确的话，则为宽转换）和“spark.default.parallelism”将没有效果。

Spark数据帧洗牌如何影响分区

但洗牌与分区有什么关系呢？嗯，如果您使用RDD，实际上什么都没有……但是对于数据帧，情况就不同了。。。正如您所看到的，分区数突然增加。这是因为Spark SQL模块包含以下默认配置：Spark。sql。洗牌分区设置为200。

下面的文章建议spark.default.parallelism不适用于Dataframe。

spark和spark的区别是什么。sql。洗牌隔板和火花。违约相似

火花。违约parallelism是RDD中的默认分区数，当用户未明确设置时，转换（如join、reduceByKey和parallelize）返回的分区数。但是火花。违约并行性似乎只适用于原始RDD，在处理数据帧时被忽略。

共有1个答案

葛玉堂

2023-03-14

窄变换（映射，过滤器）保留了分区的数量，这就是为什么不需要并行设置的原因。设置仅适用于可能影响分区数量的转换。

类似资料：

spark scala转换数据帧/rdd

我有一个如下的CSV文件。我想把这个转化成下面。基本上，我想在输出数据帧中创建一个名为idx的新列，该列将填充与键=idx，value=“n”后面的行相同的值“n”。
火花数据帧滤波器

我想过滤掉具有“c2”列前3个字符的记录，无论是“MSL”还是“HCP”。所以输出应该如下所示。有谁能帮忙吗？我知道df。过滤器（$c2.rlike（“MSL”））--用于选择记录，但如何排除记录？版本：Spark 1.6.2 Scala:2.10
火花RDD中的分区数

我通过指定分区的数量从文本文件创建RDD（Spark 1.6）。但它给我的分区数与指定的分区数不同。案例1 案例2 案例3 案例4 文件/home/pvikash/data/test的内容。txt是：这是一个测试文件。将用于rdd分区基于以上案例，我有几个问题。对于案例2，显式指定的分区数为0，但实际分区数为1（即使默认最小分区为2），为什么实际分区数为1？对于案例3，为什么在指定数量的
RDD火花质疑

我想了解以下关于火花概念的RDD的事情。 > RDD仅仅是从HDFS存储中复制某个节点RAM中的所需数据以加快执行的概念吗？如果一个文件在集群中被拆分，那么对于单个flie来说，RDD从其他节点带来所有所需的数据？如果第二点是正确的，那么它如何决定它必须执行哪个节点的JVM？数据局部性在这里是如何工作的？
从SQL查询火花数据帧

我正在尝试使用Apache Spark，以便将具有多个连接和子选择的（大型）SQL查询的结果加载到来自Spark的DataFrame中，如从SQL查询创建Spark Dataframe中所述。不幸的是，我这样做的尝试导致了拼花错误：线程“main”组织中出现异常。阿帕奇。火花sql。AnalysisException：无法推断拼花地板的架构。必须手动指定。我从谷歌看到的信息表明，当数据帧为空
如何融化火花数据帧？

在PySpark中或者至少在Scala中，Apache Spark中是否有与Pandas Melt函数等价的函数？到目前为止，我一直在用Python运行一个示例数据集，现在我想对整个数据集使用Spark。

RDD火花。违约Spark数据帧的并行等效

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档