当前位置: 首页 > 知识库问答 >
问题:

将数据帧保存为pyspark中的文本文件格式?[重复]

卫嘉泽
2023-03-14

我有如下数据帧:

+-------+------+----+----+
|      a|     b|c   |d   |
+-------+-----------+----+
|    101|   244|   4|   1|
|    101|   245|   5|   0|
|    135|   396|   2|   1|
|    140|   247|   2|   1|
|    140|   313|   3|   0|
|    140|   380|   4|   0|
|    140|   558|   5|   0|
|    140|   902|   1|   1|
|    141|   240|   4|   0|
|    141|   275|   2|   1|
|    141|   387|   3|   0|
|    141|   388|   1|   1|
|    141|   528|   5|   0|
+------------+-----------+

如何使用字段分隔符将上述数据框另存为文本文件格式|保存我的输出文件后,应该是部分-00000,部分-00001 e.t.c

共有1个答案

杜绍元
2023-03-14

如果您想分隔数据,我会使用 csv 输出格式。例如,您可以执行以下操作:

df = ...  # However you are building your df currently
df.write.format('csv').options("delimiter", "|").save(some_path)

其中some_path是您的输出目的地。

 类似资料:
  • 当我启动这个代码时,你通常认为它会在文本文件中输入一个100,但我不知道为什么它会像字符一样输入一个“d”。有人知道如何修复吗?一个方法应该输入一个数据,一个应该输入那个数据,一个应该保存那个数据。

  • (希望有人能帮我解决这个问题)非常感谢!!

  • 我想将数据集[行]保存为文本文件,并在特定位置使用特定名称。有人能帮我吗? 我已经试过了,但这会产生一个文件夹(LOCAL\u folder\u TEMP/filename),其中包含一个拼花文件:Dataset。写保存(LOCAL\u FOLDER\u TEMP filename) 谢谢

  • 问题内容: 我正在保存一个.txt和.doc文件,其中包含来自JTable的数据。在保存的那一刻,它像在表中一样放置文本,但是由于数据长度不同,它无法容纳。因此,我试图按如下所示安排日期: 第1列名称:第1行第1列数据 第2列名称:第1行第2列数据 第3列名称:第1行第3列数据 第4列名称:第1行第4列数据 第1列名称:第2行第1列数据 第2列名称:第2行第2列数据 第3列名称:第2行第3列数据

  • 我正在保存一个. txt和. doc文件,其中包含我的JTable中的数据。当它保存时,它会像在表格中一样将文本放在外面,但是由于数据长度不同,它不适合。所以我试着把日期安排如下: 第1列名称:第1行第1列数据 第2列名称:第1行第2列数据 第3列名称:第1行第3列数据 第4列名称:第1行第4列数据 第1列名称:第2行第1列数据 第2列名称:第2行第2列数据 第3列名称:第2行第3列数据 第4列名

  • 我正在尝试使用下面的代码将数据帧作为文本格式文件加载到HDFS和S3中<代码>数据帧名称为最终数据。 使用上述代码,我可以成功加载数据。但文件名和我提供的不一样,也不是文本格式。已创建一个目录,其名称如我所述。 目录名称- /user/test/File/test_20170918055206.txt -bash-4.2$hdfs dfs-ls/user/test/File/test\u 2017