问题：

将Spark DataFrame存储为时重命名文件。csv[重复]

尉迟招

2023-03-14

我目前正在将spark数据帧存储为。Azure上blob存储中的csv文件。我正在使用以下代码。

 smtRef2_DF.dropDuplicates().coalesce(1).write
  .mode("overwrite")
  .format("com.databricks.spark.csv")
  .option("header", "true")
  .save(csvBlobStorageMount + "/Output/Smt/SmtRef.csv")

这是可行的，但它会创建一个SmtRef。csv文件夹中的实际。csv文件存储为part-00000-tid。csv。如何指定实际的名称。csv文件？

提前感谢

共有2个答案

戚研

2023-03-14

使用spark api是不可能的。

如果您想实现这一点，请使用. re分区（1）生成一个PART文件，然后使用Hadoop文件系统api在HDFS中重命名文件

导入org.apache.hadoop.fs._FileSystem.get（spark.sparkContext.hadoopConfiguration（））. rename（new Path（"oldathtillpartfile"）， new path（"newpath"））

阎声

2023-03-14

如果文件足够小，可以放入内存，一种解决方法是将其转换为pandas数据帧并从中另存为csv。

df_pd = df.toPandas()
df_pd.to_csv("path")

类似资料：

将pandas_datareader存储到新的csv文件[重复]

此函数返回以下内容：我想让我的python脚本可以将股票历史数据保存到一个csv文件中，这样我就可以在以后的项目中使用它。我试着用csv模块做这件事，但是找不到任何与我正在尝试做的事情相匹配的东西。是否有任何方法可以将这些数据存储到一个新的csv文件中，而不需要一个现有的文件。
如何重命名内部存储中的文件？

我从用户的相册中获取了一张图像，并将其保存在一个文件夹中。以下是代码：然后我读了图像，用代码改变了它的名字：但当我尝试用新名称重新加载图像时，我得到一个文件未找到异常，这是代码：这就是日志错误： 08-09 20:23:50.730 15052-15052/？ W/System.err：java.io.FileNotFound异常：lol1.png： open失败： ENOENT（没有这样
文件重命名

文件重命名文件重命名源码/* * Copyright (c) 2006-2018, RT-Thread Development Team * * SPDX-License-Identifier: Apache-2.0 * * Change Logs: * Date Author Notes * *//* * 程序清单：更改名称 * * 程序会创建一个操作文件的函数并导出到msh命令列表 * 在
将文件重命名为md5 sum + extension（BASH）

问题内容：我需要有关bash脚本的帮助。脚本需要将目录中的所有文件重命名为其md5 sum +扩展名。我在下面找到了bash脚本，但是需要对其进行更改，以便添加扩展名。问题答案：这可能对您有用：或者GNU sed可以做的更短：
Linux重命名文件为大写

问题内容：我有大量的格式文件，以及。如何重命名这些文件，使它们全部为大写，而忽略名称的数字部分？问题答案：
批量重命名文件

问题内容：我想批量重命名目录中的多个文件，以便从文件名中删除前面的数字和连字符。如何使用linux命令执行此操作？问题答案：这应该使它：它从块的开头（即数字）开始多次，然后连字符并将其从文件名中删除。如果不在您的计算机中，则可以使用循环和：测试要么：

将Spark DataFrame存储为时重命名文件。csv[重复]

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档