当前位置: 首页 > 知识库问答 >
问题:

将Spark DataFrame存储为时重命名文件。csv[重复]

尉迟招
2023-03-14

我目前正在将spark数据帧存储为。Azure上blob存储中的csv文件。我正在使用以下代码

 smtRef2_DF.dropDuplicates().coalesce(1).write
  .mode("overwrite")
  .format("com.databricks.spark.csv")
  .option("header", "true")
  .save(csvBlobStorageMount + "/Output/Smt/SmtRef.csv")

这是可行的,但它会创建一个SmtRef。csv文件夹中的实际。csv文件存储为part-00000-tid。csv。如何指定实际的名称。csv文件?

提前感谢

共有2个答案

戚研
2023-03-14

使用spark api是不可能的。

如果您想实现这一点,请使用. re分区(1)生成一个PART文件,然后使用Hadoop文件系统api在HDFS中重命名文件

导入org.apache.hadoop.fs._FileSystem.get(spark.sparkContext.hadoopConfiguration()). rename(new Path("oldathtillpartfile"), new path("newpath"))

阎声
2023-03-14

如果文件足够小,可以放入内存,一种解决方法是将其转换为pandas数据帧并从中另存为csv。

df_pd = df.toPandas()
df_pd.to_csv("path")
 类似资料:
  • 此函数返回以下内容: 我想让我的python脚本可以将股票历史数据保存到一个csv文件中,这样我就可以在以后的项目中使用它。我试着用csv模块做这件事,但是找不到任何与我正在尝试做的事情相匹配的东西。是否有任何方法可以将这些数据存储到一个新的csv文件中,而不需要一个现有的文件。

  • 我从用户的相册中获取了一张图像,并将其保存在一个文件夹中。 以下是代码: 然后我读了图像,用代码改变了它的名字: 但当我尝试用新名称重新加载图像时,我得到一个文件未找到异常,这是代码: 这就是日志错误: 08-09 20:23:50.730 15052-15052/? W/System.err:java.io.FileNotFound异常:lol1.png: open失败: ENOENT(没有这样

  • 文件重命名 文件重命名 源码/* * Copyright (c) 2006-2018, RT-Thread Development Team * * SPDX-License-Identifier: Apache-2.0 * * Change Logs: * Date Author Notes * *//* * 程序清单:更改名称 * * 程序会创建一个操作文件的函数并导出到msh命令列表 * 在

  • 问题内容: 我需要有关bash脚本的帮助。脚本需要将目录中的所有文件重命名为其md5 sum +扩展名。 我在下面找到了bash脚本,但是需要对其进行更改,以便添加扩展名。 问题答案: 这可能对您有用: 或者GNU sed可以做的更短:

  • 问题内容: 我有大量的格式文件,以及。 如何重命名这些文件,使它们全部为大写,而忽略名称的数字部分? 问题答案:

  • 问题内容: 我想批量重命名目录中的多个文件,以便从文件名中删除前面的数字和连字符。 如何使用linux命令执行此操作? 问题答案: 这应该使它: 它从块的开头(即数字)开始多次,然后连字符并将其从文件名中删除。 如果不在您的计算机中,则可以使用循环和: 测试 要么: