当前位置: 首页 > 知识库问答 >
问题:

将csv文件从pypark dataframe保存到s3 bucket中

拓拔奇
2023-03-14

我想将spark dataframe的内容保存到s3 bucket中的csv文件中:

df_country.repartition(1).write.csv('s3n://bucket/test/csv/a',sep=",",header=True,mode='overwrite')

它创建名为:part-00000-fc644e84-7579-48的文件的问题。

有没有办法修复这个文件的名字。例如test.csv?

谢谢

最佳

共有1个答案

梁丘弘
2023-03-14

这是不可能的,因为作业中的每个分区都将创建自己的文件,并且必须遵循严格的约定以避免命名冲突。建议的解决方案是在创建文件后重命名该文件。

另外,如果您知道每个路径只写一个文件。例如s3n://bucket/test/csv/a。然后,文件的名称并不重要,只需读取唯一目录名的所有内容即可。

资料来源:1。在将数据文件名保存为CSV2时指定文件名。在hdfs位置的单个文件中保存Spark dataframe

 类似资料:
  • 问题内容: 我正在尝试重组在Excel文件中组织降水数据的方式。为此,我编写了以下代码: 这段代码运行良好,通过Jupyter,我可以看到结果是不错的 但是,尝试将此数据帧保存到csv文件时遇到问题。 结果文件包含垂直索引列,看来我无法调用特定的单元格。 (希望有人可以帮助我解决这个问题)非常感谢! 问题答案: 全部在文档中。 您有兴趣跳过索引列,因此: 如果您还想跳过标题,请添加: 我不知道您的

  • (希望有人能帮我解决这个问题)非常感谢!!

  • 问题内容: import csv 我得到奇怪的输出!此代码有什么问题? 问题答案: 用途:

  • 我用的是Flink 1.4.0 我正在尝试将Table API查询的结果保存到CSV文件,但我收到错误。以下是详细信息: 我的输入文件如下所示: 我对此运行查询以仅选择犬类,我想将其保存到csv文件中: 当我运行此命令时,我看到数据集的结果被输出: 犬科动物,2 然而,我在输出文件中没有得到任何结果,我在下面看到了这些错误。我能做些什么来解决这个问题?谢谢

  • 问题内容: 将PL / pgSQL输出从PostgreSQL数据库保存到CSV文件的最简单方法是什么? 我正在将PostgreSQL 8.4与pgAdmin III和PSQL插件一起使用,从中运行查询。 问题答案: 您要在服务器上还是在客户端上生成结果文件? 如果您想要一些易于重用或自动化的东西,可以使用Postgresql的内置COPY命令。例如 这种方法完全在远程服务器上运行 -无法写入本地P

  • 有人能给我提供一个使用Spark2.2选项将csv文件保存到Hbase表的工作示例吗?我尝试过但失败了(注意:所有这些选项都适用于Spark1.6) 凤凰-火花 HBase-Spark it.nerdammer.bigdata:spark-hbase-connector2.10 所有这些最终都在修复一切后给出了类似的错误,这个火花HBase 谢谢