问题：

如何将数据帧中的数据写入到单个。拼花地板文件（两个数据

彭嘉赐

2023-03-14

df.show() --> 2 rows
+------+--------------+----------------+
| name|favorite_color|favorite_numbers|
+------+--------------+----------------+
|Alyssa| null| [3, 9, 15, 20]| | Ben| red| []|
+------+--------------+----------------+

df.rdd.get1个分区

>>> df.rdd.getNumPartitions()

1个

df.write.save("/user/hduser/data_check/test.parquet", format="parquet")

如果我使用上述命令在HDFS中创建拼花文件，它将在HDFS中创建目录“payloads.parquet”，并在该目录中创建多个文件。拼花地板文件，元数据文件正在保存。

找到4项

-rw-r--r-- 3 bimodjoul biusers 0 2017-03-15 06:47 
/user/hduser/data_check/test.parquet/_SUCCESS 
-rw-r--r-- 3 bimodjoul biusers 494 2017-03-15 06:47
/user/hduser/data_check/test.parquet/_common_metadata
-rw-r--r-- 3 bimodjoul biusers 862 2017-03-15 06:47
/user/hduser/data_check/test.parquet/_metadata 
-rw-r--r-- 3 bimodjoul biusers 885 2017-03-15 06:47
/user/hduser/data_check/test.parquet/part-r-00000-f83a2ffd-38bb-4c76-9f4c-357e43d9708b.gz.parquet

如何将数据帧中的数据写入单个. parket文件（两个数据

帮助将不胜感激。

共有2个答案

都昊乾

2023-03-14

写入后使用合并（1）。这会解决你的问题

df.coalesce(1).write

濮阳宁

2023-03-14

这应该可以解决问题。

df.coalesce(1).write.parquet(parquet_file_path)
df.write.mode('append').parquet("/tmp/output/people.parquet")

类似资料：

将spark数据帧写入单个拼花文件

我试图做一些非常简单的事情，我有一些非常愚蠢的挣扎。我想这一定与对火花的基本误解有关。我非常感谢任何帮助或解释。我有一张非常大的桌子（~3 TB，~300毫米行，25k个分区），在s3中保存为拼花地板，我想给一些人一个很小的拼花文件样本。不幸的是，这要花很长时间才能完成，我不明白为什么。我尝试了以下方法：然后当这不起作用时，我尝试了这个，我认为应该是一样的，但我不确定。（我添加了，以尝试调试。
Spark：将大型数据帧写入拼花文件时出现LeaseExpiredException

我有一个很大的数据框，我正在HDFS中写入拼花文件。从日志中获取以下异常：谷歌对此进行了搜索，但找不到任何具体的解决方案。将推测设置为false:conf.Set（“spark.投机”，“false”）但仍然没有帮助。它只完成了几个任务，生成了几个零件文件，然后突然因此错误而停止。详细信息：Spark版本：2.3.1（这在1.6x中没有发生）只有一个会话正在运行，这排除了不同会话访问同一位
Spark Executor在向拼花地板写入数据帧时性能低下

Spark版本：2.3 hadoop dist:azure Hdinsight 2.6.5平台：azure存储：BLOB 集群中的节点：6个执行器实例：每个执行器6个内核：每个执行器3个内存：8gb 试图通过同一存储帐户上的spark数据框将azure blob（wasb）中的csv文件（大小4.5g-280列，2.8 mil行）加载到拼花格式。我重新划分了大小不同的文件，即20、40、60、10
用V1.11.0编写时，将拼花地板数据加载到雪花云数据库中的问题

我对雪花是新手，但我的公司一直在成功地使用它。目前正在使用Java parquet-avro V1.10.1使用现有的Avro模式编写Parquet文件。我已经削减了Avro模式，并发现Avro模式中存在一个MAP类型是导致这个问题的原因。田地是使用Parquet-Tools的Parquet模式示例。感谢任何协助
熊猫用append将数据帧写入拼花格式

我正试图在模式下将写入文件格式（在最新的pandas版本0.21.0中引入）。但是，文件将被新数据覆盖，而不是附加到现有文件。我错过了什么？写入语法是读取语法是
将pandas数据帧写入CSV文件

我在pandas中有一个数据帧，我想把它写到CSV文件中。我使用的是：并得到错误：有没有什么方法可以很容易地解决这个问题（例如，我的数据帧中有unicode字符）？还有，有没有一种方法可以使用“to-tab”方法（我认为不存在）写入以制表符分隔的文件，而不是CSV？

如何将数据帧中的数据写入到单个。拼花地板文件（两个数据

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档