当前位置: 首页 > 知识库问答 >
问题:

将spark dataframe导出到.csv中,并带有标头和特定文件名

墨承泽
2023-03-14

我正试图将数据从spark dataframe导出到。csv文件:

df.coalesce(1)\
  .write\
  .format("com.databricks.spark.csv")\
  .option("header", "true")\
  .save(output_path)

它正在创建一个文件名为“Part-R-00001-512872F2-9B51-46C5-B0EE-31D626063571.csv”

我希望文件名为“part-r-00000.csv”或“part-00000.csv”

共有1个答案

端木元青
2023-03-14

嗯,虽然我的问题得到了-3的评分,但我在这里发布了帮助我解决问题的解决方案。作为一名技术人员,我总是更多地关注代码/逻辑,而不是语法。至少对我来说,一个小的上下文应该能理解这个问题。

来解决问题:

当我们从spark dataframe创建。csv文件时,

import os, sys
output_path_stage = //set the source folder path here
output_path  = // set the target folder path here
//creating system command line
cmd2 = "hdfs dfs -mv " + output_path_stage + 'part-*' + '  ' + output_path + 'new_name.csv'
//executing system command
os.system(cmd2)
 类似资料:
  • 本文向大家介绍mysql 导出CSV文件 并带表头的方法,包括了mysql 导出CSV文件 并带表头的方法的使用技巧和注意事项,需要的朋友参考一下 参考官方文档 http://dev.mysql.com/doc/refman/5.7/en/select-into.html 实例如下: 先查看一下结果 导出CSV文件 以上这篇mysql 导出CSV文件 并带表头的方法就是小编分享给大家的全部内容了,

  • 我对Spark和Scala非常陌生(比如两个小时的新体验),我正在尝试玩CSV数据文件,但我无法做到,因为我不确定如何处理“标题行”,我在互联网上搜索了加载或跳过它的方法,但我真的不知道怎么做。我正在粘贴我正在使用的代码,请帮助我。

  • 我想在AWS中创建一个数据处理管道,以最终将处理后的数据用于机器学习。 我有一个Scala脚本,它从S3获取原始数据,对其进行处理并将其写入HDFS,甚至使用Spark CSV将其写入S3。如果我想使用AWS机器学习工具来训练预测模型,我想我可以使用多个文件作为输入。但如果我想使用其他东西,我认为最好是接收单个CSV输出文件。 目前,由于我不想为了性能目的而使用重新分区(1)或合并(1),我已经使

  • 问题内容: 我编写了一个Python脚本,用于合并两个csv文件,现在我想在最终的csv中添加标头。我尝试按照此处报告的建议进行操作,但出现以下错误:。解决此问题的最有效方法是什么? 这是我正在使用的代码: 问题答案: 该班预计 字典 的每一行。如果您只想编写一个初始标头,请使用常规并在标头的简单行中传递: 另一种方法是在跨数据复制时生成字典:

  • 虽然我进入实现从相当长的时间,但新的发展。

  • 问题内容: 我试图将使用以下查询找到的结果导出到我的桌面上的CSV中。 这是我第一次使用Elasticsearch和cURL,因此我对如何执行此操作感到困惑。 现在,当我运行此查询时,它将返回戴夫的姓名,姓氏,地址和性别,并且我想在运行查询时将结果放入桌面上的csv中。 我一直在阅读有关如何执行此链接的操作,但是我不确定如何使我的查询执行此操作-(https://docs.python.org/3