谢谢!
如果数据帧适合驱动程序内存,并且希望保存到本地文件系统,则可以使用topandas
方法将Spark数据帧转换为本地Pandas数据帧,然后只需使用to_csv
:
df.toPandas().to_csv('mycsv.csv')
否则,您可以使用spark-csv:
>
火花1.3
df.save('mycsv.csv', 'com.databricks.spark.csv')
df.write.format('com.databricks.spark.csv').save('mycsv.csv')
df.write.csv('mycsv.csv')
问题内容: 我正在使用Spark 1.3.1(PySpark),并且已经使用SQL查询生成了一个表。我现在有一个对象是。我想将此对象(我称其为“表”)导出到一个csv文件,以便我可以操纵它并绘制列。如何将“表格”导出到csv文件? 谢谢! 问题答案: 如果数据帧适合驱动程序内存,并且您想保存到本地文件系统,则可以使用方法将Spark DataFrame 转换为本地Pandas DataFrame
我有下面的pyspark数据文件。
我的Spark-version=2.3.1,Scala-version-2.11.8。 产生的错误: 文件“/usr/local/spark/python/lib/pyspark.zip/pyspark/sql/readwriter.py”,第172行,加载文件“/usr/local/spark/python/lib/py4j-0.10.7-src.zip/pyspark/py4j/java_ga
我现在在edX做火花课程的介绍。是否有可能从我的计算机上的数据库中保存数据。 我之所以问这个问题,是因为这门课提供的数据库笔记本可能在课程结束后就不起作用了。
为了了解如何在python中导出spark sql dataframe,我参考了以下链接 null
有两个,我想删除一个。我该怎么办?