问题：

将spark dataframe导出到.csv中，并带有标头和特定文件名

墨承泽

2023-03-14

我正试图将数据从spark dataframe导出到。csv文件：

df.coalesce(1)\
  .write\
  .format("com.databricks.spark.csv")\
  .option("header", "true")\
  .save(output_path)

它正在创建一个文件名为“Part-R-00001-512872F2-9B51-46C5-B0EE-31D626063571.csv”

我希望文件名为“part-r-00000.csv”或“part-00000.csv”

共有1个答案

端木元青

2023-03-14

嗯，虽然我的问题得到了-3的评分，但我在这里发布了帮助我解决问题的解决方案。作为一名技术人员，我总是更多地关注代码/逻辑，而不是语法。至少对我来说，一个小的上下文应该能理解这个问题。

来解决问题：

当我们从spark dataframe创建。csv文件时，

import os, sys
output_path_stage = //set the source folder path here
output_path  = // set the target folder path here
//creating system command line
cmd2 = "hdfs dfs -mv " + output_path_stage + 'part-*' + '  ' + output_path + 'new_name.csv'
//executing system command
os.system(cmd2)

类似资料：

mysql 导出CSV文件并带表头的方法

本文向大家介绍mysql 导出CSV文件并带表头的方法，包括了mysql 导出CSV文件并带表头的方法的使用技巧和注意事项，需要的朋友参考一下参考官方文档 http://dev.mysql.com/doc/refman/5.7/en/select-into.html 实例如下：先查看一下结果导出CSV文件以上这篇mysql 导出CSV文件并带表头的方法就是小编分享给大家的全部内容了，
使用Scala和SparkSql并导入带有头[重复]的CSV文件

我对Spark和Scala非常陌生（比如两个小时的新体验），我正在尝试玩CSV数据文件，但我无法做到，因为我不确定如何处理“标题行”，我在互联网上搜索了加载或跳过它的方法，但我真的不知道怎么做。我正在粘贴我正在使用的代码，请帮助我。
将Spark输出CSV文件与单个标头合并

我想在AWS中创建一个数据处理管道，以最终将处理后的数据用于机器学习。我有一个Scala脚本，它从S3获取原始数据，对其进行处理并将其写入HDFS，甚至使用Spark CSV将其写入S3。如果我想使用AWS机器学习工具来训练预测模型，我想我可以使用多个文件作为输入。但如果我想使用其他东西，我认为最好是接收单个CSV输出文件。目前，由于我不想为了性能目的而使用重新分区（1）或合并（1），我已经使
Python将标头添加到CSV文件

问题内容：我编写了一个Python脚本，用于合并两个csv文件，现在我想在最终的csv中添加标头。我尝试按照此处报告的建议进行操作，但出现以下错误：。解决此问题的最有效方法是什么？这是我正在使用的代码：问题答案：该班预计字典的每一行。如果您只想编写一个初始标头，请使用常规并在标头的简单行中传递：另一种方法是在跨数据复制时生成字典：
导出文件名中带有日期戳的CSV

虽然我进入实现从相当长的时间，但新的发展。
将Elasticsearch结果导出到CSV文件

问题内容：我试图将使用以下查询找到的结果导出到我的桌面上的CSV中。这是我第一次使用Elasticsearch和cURL，因此我对如何执行此操作感到困惑。现在，当我运行此查询时，它将返回戴夫的姓名，姓氏，地址和性别，并且我想在运行查询时将结果放入桌面上的csv中。我一直在阅读有关如何执行此链接的操作，但是我不确定如何使我的查询执行此操作-（https://docs.python.org/3

将spark dataframe导出到.csv中，并带有标头和特定文件名

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档