spark中的转换和rdd函数有什么区别？

董意蕴

2023-03-14

我在读spark教科书，我看到了转换和动作，我又读了rdd函数，所以我很困惑，谁能解释一下转换和spark rdd函数之间的基本区别呢。

两者都用于更改rdd数据内容并返回一个新的rdd，但我想知道确切的解释。

共有3个答案

和魁

2023-03-14

由于Spark的集合本质上是不可变的，因此一旦创建RDD，我们就无法更改数据。转换是应用于RDD并在输出中生成其他RDD的函数（即：<代码>映射，<代码>平面映射，<代码>过滤器，<代码>连接，<代码>分组方式，…）。动作是应用于RDD并生成非RDD（数组、列表等）数据作为输出的函数（即：<代码>计数，<代码>保存文本，<代码>foreach，<代码>收集，…）。

徐博雅

2023-03-14

RDD只支持两种类型的操作：转换（从现有数据集创建新数据集）和操作（在数据集上运行计算后向驱动程序返回值）。

RDD函数是教科书中用于内部机制的通用术语。

例如，MAP是一种转换，它通过一个函数传递每个数据集元素，并返回一个表示结果的新RDD。REDUCE是一个操作，它使用某个函数聚合RDD的所有元素，并将最终结果返回给驱动程序。

羊丰茂

2023-03-14

Sparkrdd函数是转换和动作两者。Transform是更改rdd数据的函数，而Action是不更改数据但提供输出的函数。
例如：
map、filter、Union等都是转换，因为它们有助于更改存量数据。减少、收集、计数都是action，因为它们提供输出而不是更改数据。有关更多信息，请访问Spark和Jacek

类似资料：

Spark中RDD和Dataframe的区别是什么

我浏览了一下Spark中RDD和Dataframe的链接有什么区别？ > 我们可以在spark上运行Pandas、numpy数据帧功能吗。对于numpy，np。像df这样的熊猫在哪里和在哪里。分组依据[“”]。agg（）
Apache Spark中的Dataframe、Dataset和RDD之间有什么区别？

在Apache Spark中，这些API之间有什么区别？为什么以及什么时候我们应该选择其中一个？
Spark中RDD和Dataframe的区别是什么？[重复]

嗨，我对apache spark比较陌生。我想了解RDD、dataframe和数据集之间的区别。例如，我从s3存储桶中提取数据。在这种情况下，当我从s3加载数据时，什么是RDD？另外，由于RDD是不可变的，所以我可以更改df的值，使df不能是RDD。如果有人能解释RDD、数据帧和数据集之间的区别，我将不胜感激。
Spark数据集和RDD之间的区别是什么

我仍在努力理解最近推出的Spark数据集的全部功能。是否有关于何时使用RDD和何时使用数据集的最佳实践？ Databricks在他们的公告中解释说，通过使用数据集，可以实现运行时和内存的惊人减少。尽管如此，据称数据集的设计“与现有RDD API协同工作”。这仅仅是对向下兼容性的引用，还是有人更愿意在数据集上使用RDD的场景？
spark中的RDD是什么

定义如下： RDD是不可变的分布式对象集合我不太明白这是什么意思。它像存储在硬盘上的数据（分区对象）吗？如果是这样，那么RDD为什么可以有用户定义的类（如java、scala或python）通过此链接：https://www.safaribooksonline.com/library/view/learning-spark/9781449359034/ch03.html它提到：用户通过两种方
spark scala转换数据帧/rdd

我有一个如下的CSV文件。我想把这个转化成下面。基本上，我想在输出数据帧中创建一个名为idx的新列，该列将填充与键=idx，value=“n”后面的行相同的值“n”。

spark中的转换和rdd函数有什么区别？

共有3个答案

相关问答

相关文章

相关阅读

相关工具

相关文档