问题：

从技术角度看RDD与数据集/数据帧之间的关系

翟嘉志

2023-03-14

我试图从技术的角度理解RDD和数据框/数据集之间是否有关系。RDD通常被描述为Spark中的基本数据抽象。在我的理解中，这意味着数据框/数据集也应该基于它。在最初的SparkSQL中，图1

那么我的问题是：数据帧/数据集是基于RDD还是这两个概念是独立的？

共有1个答案

阎知

2023-03-14

数据框架和数据集基于Rdd，但这有点隐蔽。事实上，数据框架和数据集更多地用于spark sql项目，其中as Rdd位于spark core上。

以下是关于Dataframe（即数据集[行]和Rdd如何链接的技术观点：Dataframe有一个控制所有sql执行行为的查询执行（QueryExecution）。现在，当引擎执行此操作时，它将输出到Row类型的内部rdd中，lazy val toRdd:rdd[内部行]=executedPlan。execute（）。有了rdd和模式，它将形成一个数据帧。

类似资料：

Spark 2.0数据集与数据帧

null null 为什么要使用UDF/UADF而不是map（假设map保留在数据集表示中）？
小图像数据集的数据增强技术？

目前，我正在用深度CNN训练类似Flickrlogos-32的小型标志数据集。为了训练更大的网络，我需要更多的数据集，因此使用增强。我现在做的最好的是使用仿射变换（特征归一化、特征中心化、旋转、宽度高度移位、水平垂直翻转）。但对于更大的网络，我需要更多的增强。我试着在Kaggle的国家数据科学碗的论坛上搜索，但没有得到多少帮助。这里给出了一些方法的代码，但我不确定哪些方法是有用的。除了仿射变换之外
Spark数据集和RDD之间的区别是什么

我仍在努力理解最近推出的Spark数据集的全部功能。是否有关于何时使用RDD和何时使用数据集的最佳实践？ Databricks在他们的公告中解释说，通过使用数据集，可以实现运行时和内存的惊人减少。尽管如此，据称数据集的设计“与现有RDD API协同工作”。这仅仅是对向下兼容性的引用，还是有人更愿意在数据集上使用RDD的场景？
使用另一个数据帧或RDD搜索数据帧

我有2个数据帧在apache火花。 df 1有显示编号和说明。。。数据看起来像不显示描述a这是米奇b唐纳德来了c玛丽和乔治回家d玛丽和乔治进城第二个数据帧有字符人物乔治唐纳德玛丽米妮我需要搜索节目描述，找出哪个节目的特征是哪个角色... 最终输出应该如下所示乔治|c，d 唐纳德|b 玛丽|c. d 米妮|不显示这些数据集经过精心设计，非常简单，但它表达了我试图实现的搜索功能。我
spark scala转换数据帧/rdd

我有一个如下的CSV文件。我想把这个转化成下面。基本上，我想在输出数据帧中创建一个名为idx的新列，该列将填充与键=idx，value=“n”后面的行相同的值“n”。
在数据帧的不同倍数之间随机交换数据帧值

这是一个有点复杂的解释，所以我希望它足够清楚，但如果不是，我会尝试和扩展更多。所以我有一个这样的数据帧：

从技术角度看RDD与数据集/数据帧之间的关系

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档