Pyspark-将数据帧写入2个不同的csv文件

柯曜文

2023-03-14

我想将一个数据帧保存到两个不同的csv文件中（拆分数据帧）-一个文件只包含标题，另一个文件包含其余行。

我想将这两个文件保存在同一个目录下，这样Spark处理所有逻辑将是最好的选择，如果可能的话，而不是使用pandas分割csv文件。

最有效的方法是什么？

谢谢你的帮助！

共有2个答案

巫新知

2023-03-14

数据，不带标头：

df.to_csv("filename.csv", header=False)

标头，无数据：

df_new = pd.DataFrame(data=None, columns=df_old.columns) # data=None makes sure no rows are copied to the new dataframe
df_new.to_csv("filename.csv")

范建华

2023-03-14

假设您有一个名为“df”的数据集。

您可以：选项一：写入两次：

df.write.(...).option("header", "false").csv(....)
df.take(1).option("header", "true").csv() // as far as I remember, someone had problems with saving DataFrame without rows -> you must write at least one row and then manually cut this row using normal Java or Python file API

或者，您可以使用head=true编写一次，然后手动剪切标头并使用普通JavaAPI将其放入新文件中

类似资料：

将pandas数据帧写入CSV文件

我在pandas中有一个数据帧，我想把它写到CSV文件中。我使用的是：并得到错误：有没有什么方法可以很容易地解决这个问题（例如，我的数据帧中有unicode字符）？还有，有没有一种方法可以使用“to-tab”方法（我认为不存在）写入以制表符分隔的文件，而不是CSV？
将big Spark数据帧写入csv文件

我正在使用Spark 2.3，我需要将Spark数据帧保存到csv文件中，我正在寻找更好的方法。。查看相关/类似的问题，我发现了这个问题，但我需要一个更具体的：如果DataFrame太大，如何避免使用Pandas？因为我使用了函数（下面的代码），它产生了：内存不足错误（无法分配内存）。使用文件I/O直接写入csv是更好的方法吗？它可以保留分隔符吗？使用df。聚结（1）。写选项（“标题”、“
将包含数据的csv文件写入不同的列

我想用javascript在csv文件的列中写一个字符串。我使用下面的代码，但是它在一列中写入整个字符串。这就是我如何创建csv fi：有什么建议吗？
将大熊猫数据帧分块写入CSV文件

问题内容：如何将大数据文件分块写入CSV文件？我有一组大型数据文件（1M行x 20列）。但是，我只关注该数据的5列左右。我想通过只用感兴趣的列制作这些文件的副本来使事情变得更容易，所以我可以使用较小的文件进行后期处理。因此，我计划将文件读取到数据帧中，然后写入csv文件。我一直在研究将大数据文件以块的形式读入数据框。但是，我还无法找到有关如何将数据分块写入csv文件的任何信息。这是我现在
pyspark将csv文件写入S3错误

我正在使用pyspark，在向S3写入数据时遇到了问题，但从S3读取数据并不是问题。这是我的代码：这是错误：有什么问题？
使用pyspark将数据帧写入Kafka时的异常

我正在尝试创建一个dataframe new\u df，并使用pyspark将数据帧加载到Kafka。然而，我很少有例外。不知道到底是什么问题。任何帮助都将不胜感激。现在我正试图将数据框架与Kafka主题联系起来异常（从错误中选取）：完全错误： Py4JJavaError：调用o1811时出错。保存：组织。阿帕奇。火花SparkException：作业因阶段失败而中止：阶段76.0中的任务8

Pyspark-将数据帧写入2个不同的csv文件

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档