当前位置: 首页 > 知识库问答 >
问题:

如何用Python从拼花文件创建CSV文件?[重复]

夹谷弘亮
2023-03-14

我有一些代码可以读取一个拼花文件,然后显示它,就像这样:

c = spark.sparkContext
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
lines = sqlContext.read.parquet("hdfs:////home/records/")
lines.take(100)

这工作正常,但我想从输出创建一个CSV文件,即:

[Row(trans_key=1130, job_id=2005972, rec=1, old_id=833715, amount=2, temp_value=0.55, loc_id=31642),
[Row(trans_key=1230, job_id=2005972, rec=4, old_id=832715, amount=22, temp_value=0.99, loc_id=31642),
[Row(trans_key=1930, job_id=2905972, rec=5, old_id=831715, amount=32, temp_value=0.33, loc_id=31642),
[Row(trans_key=1430, job_id=2705972, rec=6, old_id=833775, amount=20, temp_value=0.10, loc_id=31642),

我希望创建一个CSV文件,其中包含列标题、逗号分隔的数据和数据。这样地:

trans_key,job_id,rec,old_id,amount,temp_value,loc_id
1130,2005972,1,833715,2,0.55,31642
1230,2005972,4,832715,22,0.99,31642
1430,2705972,6,833775,20,0.10,31642

我纠结于如何将拼花文件中的结果转换为CSV文件。你能帮助我吗?

共有1个答案

越心水
2023-03-14

这应该行

lines.repartition(1).write.format('com.databricks.spark.csv')。保存('path my.csv',header='true')

 类似资料:
  • 问题内容: 我正在尝试从csv文件创建字典。csv文件的第一列包含唯一键,第二列包含值。csv文件的每一行代表字典中的唯一键,值对。我尝试使用类,但是我只能弄清楚如何为每一行生成一个新的字典。我要一部字典。这是我尝试使用的代码: 当我运行上面的代码时,我得到一个。如何从csv文件创建一个字典? 问题答案: 我相信你正在寻找的语法如下: 或者,对于,你需要:

  • 我们正在寻找一种解决方案,以便创建一个外部配置单元表,根据parquet/avro模式从parquet文件中读取数据。 换句话说,如何从拼花/avro模式生成hive表? 谢谢:)

  • 问题内容: 我有一个名为“ clients”的Sqlite 3和/或MySQL表。 使用python 2.6,如何创建带有标题的名为Clients100914.csv的csv文件?excel方言… Sql execute:select *仅提供表数据,但是我想要带有标题的完整表。 如何创建记录集以获取表头。表头应该直接来自不是用python编写的sql。 这段代码使我无法打开文件,也没有标题。也无

  • 问题内容: 我想创建一个csv文件,但是当我运行代码时,它返回一个空白页,没有csv文件。我使用PHP5。我使用以下代码: 谢谢! 问题答案: 其空白,因为您正在写信。您应该写到using 代替,还应该发送标头信息以表明它是csv。 例

  • 我在同一个文件夹中有数千个csv文件名,如下file_x_x.csv,其中x是1到10000之间的数字。每个文件包括一个标题和一行数据: file_1_1.csv 我的方法: 我不知道如何在最后创建一个唯一的文件。你能看一下上面的代码并告诉我如何获得所需的输出吗?如果我错过了什么?