当前位置: 首页 > 知识库问答 >
问题:

如何在pyspark中不创建文件夹的情况下写入CSV文件?

宋耀
2023-03-14

在CSV文件中写入时,会自动创建文件夹,然后创建具有神秘名称的csv文件,如何使用任何特定名称创建此CSV,但无需在pyspark而不是熊猫中创建文件夹。

共有2个答案

邬阳
2023-03-14

这就是spark被设计成并行写出多个文件的方式。对于大型数据集,同时写出许多文件会更快。但是您仍然可以通过使用< code>coalesce(1,true)来实现。saveAsTextFile()。你可以在这里参考

班安平
2023-03-14

这就是Spark使用并行化机制的方式。Spark应用程序意味着有一个或多个工作人员来读取您的数据并写入一个位置。当您编写CSV文件时,拥有一个包含多个文件的目录是多个工作人员可以同时写入的方式。

如果您正在使用HDFS,可以考虑编写另一个bash脚本,以您想要的方式移动或重组文件

如果您使用的是 Databricks,则可以使用 dbutils.ls 以相同的方式与 DBFS 文件进行交互。

 类似资料:
  • 我想提取Unix tar xvf/home/test/group中的tar文件。tar和提取后得到一个文件夹组,其中包含xls、pdf和txt文件列表。 我怎样才能提取内容的group.tar /home/test/list的xls, pdf文件没有创建组文件夹。 任何特定的命令可用或必须跟随复制和移动?? 谢啦!

  • 在C语言中,我可以用和调用来创建新文件,当且仅当当前没有同名文件时。我还没能在哈斯克尔找到这样做的方法。我更喜欢提供的友好的东西,最好是为我完成所有棘手的异常处理。(我不一定期望它能正确地为我完成,但那是另一回事。)

  • 本文向大家介绍Java如何在不存在文件夹的目录下创建文件,包括了Java如何在不存在文件夹的目录下创建文件的使用技巧和注意事项,需要的朋友参考一下 核心代码如下所示: 1、 2、 总结 以上所述是小编给大家介绍的Java如何在不存在文件夹的目录下创建文件,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对呐喊教程网站的支持!

  • 我试图将数据写入csv文件,我创建了四列作为 除了序列号,其他三个字段是列表

  • 如何在不使用databricks CSV api的情况下将CSV文件直接读入spark DataFrames? 我知道有databricks CSV api,但我不能使用该api... 我知道有case类可以使用,并根据cols(0)位置映射cols,但问题是我有超过22个颜色,因此我不能使用case类,因为在case类中,我们限制只能使用22个颜色。我知道有structtype来定义模式,但我觉