当前位置: 首页 > 知识库问答 >
问题:

如何在Scala中将DataFrame转换为RDD?

刁英朗
2023-03-14

有人能分享一下如何将数据转换为RDD吗?

共有3个答案

商高谊
2023-03-14

我只是在寻找我的答案,发现了这篇文章。

Jean的答案绝对正确,加上“df.rdd”将返回一个RDD[行]。一旦我得到RDD,我需要应用拆分()。为此,我们需要将RDD[行}转换为RDD[字符串]

val opt=spark.sql("select tags from cvs").map(x=>x.toString()).rdd
慎俊雄
2023-03-14

使用df。地图(行=

df.map(row => (row(1), row(2)))

为您提供一个配对的RDD,其中df的第一列是键,df的第二列是值。

邹举
2023-03-14

简单来说:

val rows: RDD[Row] = df.rdd
 类似资料:
  • 我有一个有30多个字符串的列表。如何将list转换为dataframe?我所尝试的:

  • 如何将RDD()转换为Dataframe。我使用将dataframe转换为rdd。处理完后,我想把它放回DataFrame中。我怎么能这么做?

  • 我用Avro(序列化器和反序列化器)收到Kafka主题的推文。然后,我创建了一个spark consumer,它在RDD[GenericRecord]的数据流中提取推文。现在,我想将每个rdd转换为数据帧,通过SQL分析这些推文。有什么解决方案可以将RDD[GenericRecord]转换为数据帧吗?

  • 问题内容: 有一种简单的方法可以将给定的Row对象转换为json吗? 但是我只想将一个Row转换为json。这是我要尝试执行的伪代码。 更准确地说,我正在读取json作为Dataframe中的输入。我正在产生主要基于列的新输出,但对于所有不适合列的信息都具有一个json字段。 我的问题是编写此函数的最简单方法是什么:convertRowToJson() Psidom解决方案: 仅当行只有一个级别而

  • 问题内容: 我正在尝试将数据框的一栏转换为日期时间。在这里的讨论之后,https://github.com/dask/dask/issues/863我尝试了以下代码: 但是我收到以下错误消息 我到底应该把什么放在meta之下?我应该将所有列的字典放在df中还是仅将“时间”列放在字典中?我应该放什么类型?我已经尝试过dtype和datetime64,但到目前为止它们都没有工作。 谢谢,感谢您的指导,

  • 问题内容: 我可以很容易地在Scala中将DataFrame转换为Dataset: 但是在Java版本中,我不知道如何将Dataframe转换为Dataset?任何想法? 我的努力是: 但是编译器会说: 编辑(解决方案): 基于@ Leet-Falcon的解决方案答案: 问题答案: Spark官方文档在Dataset API中 建议以下内容: 通过在 Encoders 上调用静态方法来指定Java