我只是在寻找我的答案,发现了这篇文章。
Jean的答案绝对正确,加上“df.rdd”将返回一个RDD[行]。一旦我得到RDD,我需要应用拆分()。为此,我们需要将RDD[行}转换为RDD[字符串]
val opt=spark.sql("select tags from cvs").map(x=>x.toString()).rdd
使用df。地图(行=
df.map(row => (row(1), row(2)))
为您提供一个配对的RDD,其中df的第一列是键,df的第二列是值。
简单来说:
val rows: RDD[Row] = df.rdd
我有一个有30多个字符串的列表。如何将list转换为dataframe?我所尝试的:
如何将RDD()转换为Dataframe。我使用将dataframe转换为rdd。处理完后,我想把它放回DataFrame中。我怎么能这么做?
我用Avro(序列化器和反序列化器)收到Kafka主题的推文。然后,我创建了一个spark consumer,它在RDD[GenericRecord]的数据流中提取推文。现在,我想将每个rdd转换为数据帧,通过SQL分析这些推文。有什么解决方案可以将RDD[GenericRecord]转换为数据帧吗?
问题内容: 有一种简单的方法可以将给定的Row对象转换为json吗? 但是我只想将一个Row转换为json。这是我要尝试执行的伪代码。 更准确地说,我正在读取json作为Dataframe中的输入。我正在产生主要基于列的新输出,但对于所有不适合列的信息都具有一个json字段。 我的问题是编写此函数的最简单方法是什么:convertRowToJson() Psidom解决方案: 仅当行只有一个级别而
问题内容: 我正在尝试将数据框的一栏转换为日期时间。在这里的讨论之后,https://github.com/dask/dask/issues/863我尝试了以下代码: 但是我收到以下错误消息 我到底应该把什么放在meta之下?我应该将所有列的字典放在df中还是仅将“时间”列放在字典中?我应该放什么类型?我已经尝试过dtype和datetime64,但到目前为止它们都没有工作。 谢谢,感谢您的指导,
问题内容: 我可以很容易地在Scala中将DataFrame转换为Dataset: 但是在Java版本中,我不知道如何将Dataframe转换为Dataset?任何想法? 我的努力是: 但是编译器会说: 编辑(解决方案): 基于@ Leet-Falcon的解决方案答案: 问题答案: Spark官方文档在Dataset API中 建议以下内容: 通过在 Encoders 上调用静态方法来指定Java