当前位置: 首页 > 知识库问答 >
问题:

如何将PySpark中的表dataframe导出到CSV?

郑曜灿
2023-03-14

谢谢!

共有1个答案

孟昆
2023-03-14

如果数据帧适合驱动程序内存,并且希望保存到本地文件系统,则可以使用topandas方法将Spark数据帧转换为本地Pandas数据帧,然后只需使用to_csv:

df.toPandas().to_csv('mycsv.csv')

否则,您可以使用spark-csv:

>

  • 火花1.3

    df.save('mycsv.csv', 'com.databricks.spark.csv')
    
    df.write.format('com.databricks.spark.csv').save('mycsv.csv')
    
    df.write.csv('mycsv.csv')
    

  •  类似资料:
    • 问题内容: 我正在使用Spark 1.3.1(PySpark),并且已经使用SQL查询生成了一个表。我现在有一个对象是。我想将此对象(我称其为“表”)导出到一个csv文件,以便我可以操纵它并绘制列。如何将“表格”导出到csv文件? 谢谢! 问题答案: 如果数据帧适合驱动程序内存,并且您想保存到本地文件系统,则可以使用方法将Spark DataFrame 转换为本地Pandas DataFrame

    • 我有下面的pyspark数据文件。

    • 我的Spark-version=2.3.1,Scala-version-2.11.8。 产生的错误: 文件“/usr/local/spark/python/lib/pyspark.zip/pyspark/sql/readwriter.py”,第172行,加载文件“/usr/local/spark/python/lib/py4j-0.10.7-src.zip/pyspark/py4j/java_ga

    • 我现在在edX做火花课程的介绍。是否有可能从我的计算机上的数据库中保存数据。 我之所以问这个问题,是因为这门课提供的数据库笔记本可能在课程结束后就不起作用了。

    • 为了了解如何在python中导出spark sql dataframe,我参考了以下链接 null

    • 有两个,我想删除一个。我该怎么办?