问题：

火花：将数据帧写入CSV时出错

安泰平

2023-03-14

我正在尝试使用Databricks的spark-csv2.10依赖关系将一个数据帧写入到HDFS的*.csv文件。依赖关系似乎可以正常工作，因为我可以将.csv文件读入数据帧。但是当我执行写操作时，我会得到以下错误。将头写入文件后会出现异常。

18/06/21 21:41:58 WARN hdfs.DFSClient: Caught exception
java.lang.InterruptedException
at java.lang.Object.wait(Native Method)
at java.lang.Thread.join(Thread.java:1281)
at java.lang.Thread.join(Thread.java:1355)
at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.closeResponder(DFSOutputStream.java:967)
at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.endBlock(DFSOutputStream.java:705)
at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.run(DFSOutputStream.java:894)

DataFrame df = sqlContext.read().format("com.databricks.spark.csv")
                        .option("header", "true")
                        .option("inferSchema", "true")
                        .option("delimiter", "|")
                        .load("/user/abc/data.csv");
df.registerTempTable("empTable");
DataFrame result = sqlContext.sql("SELECT department, avg(salary) as avgSalary FROM empTable GROUP BY department").cache();
result.write()
      .format("com.databricks.spark.csv")
      .option("header", "true")
      .save("/user/abc/csv/"); //InterruptedException comes here
//The directory "/user/abc/csv/" gets created and it even has temp files.

当我将查询更改为select department,salary FROM emptable时，write工作很好。

有谁能帮我一下吗？

编辑：根据Chandan的请求，这里是result.show()；的结果

+----------+---------+
|department|avgSalary|
+----------+---------+
|   Finance|   5000.0|
|    Travel|   5000.0|
+----------+---------+

共有1个答案

钱志义

2023-03-14

您正在写入的是unix文件系统还是HDFS。我能用上面的代码执行。你能看到结果数据帧吗。尝试结果。在此显示并张贴结果。会检查是什么问题。如果可能，请张贴完整的日志

试着把它保存在镶木地板上，看看它是否起作用了。如果它是有效的，那么肯定有csv的一些问题，我们可以检查。对我有效。在Spark2.2和1.6.3中尝试的查询没有问题。尝试在本地unix文件系统中写入。我想这可能是HDFS的问题。您的代码似乎是正确的

类似资料：

将pandas数据帧写入CSV文件

我在pandas中有一个数据帧，我想把它写到CSV文件中。我使用的是：并得到错误：有没有什么方法可以很容易地解决这个问题（例如，我的数据帧中有unicode字符）？还有，有没有一种方法可以使用“to-tab”方法（我认为不存在）写入以制表符分隔的文件，而不是CSV？
火花加载CSV文件作为数据帧？

我想在spark中读取一个CSV，将其转换为DataFrame，并使用将其存储在HDFS中在Apache Spark中将CSV文件加载为DataFrame的正确命令是什么？
向Cassandra写入大火花数据帧-性能调整

我在Spark 2.1.0/Cassandra 3.10集群（4台机器*12个内核*256个RAM*2个SSD）上工作，很长一段时间以来，我一直在努力使用Spark Cassandra connector 2.0.1向Cassandra写入特定的大数据帧。这是我的表的模式用作主键的散列是256位；列表字段包含多达1MB的某种结构化类型的数据。总共，我需要写几亿行。目前，我正在使用以下写入方法
Spark：将大型数据帧写入拼花文件时出现LeaseExpiredException

我有一个很大的数据框，我正在HDFS中写入拼花文件。从日志中获取以下异常：谷歌对此进行了搜索，但找不到任何具体的解决方案。将推测设置为false:conf.Set（“spark.投机”，“false”）但仍然没有帮助。它只完成了几个任务，生成了几个零件文件，然后突然因此错误而停止。详细信息：Spark版本：2.3.1（这在1.6x中没有发生）只有一个会话正在运行，这排除了不同会话访问同一位
将big Spark数据帧写入csv文件

我正在使用Spark 2.3，我需要将Spark数据帧保存到csv文件中，我正在寻找更好的方法。。查看相关/类似的问题，我发现了这个问题，但我需要一个更具体的：如果DataFrame太大，如何避免使用Pandas？因为我使用了函数（下面的代码），它产生了：内存不足错误（无法分配内存）。使用文件I/O直接写入csv是更好的方法吗？它可以保留分隔符吗？使用df。聚结（1）。写选项（“标题”、“
如何在使用火花数据帧写入时自动计算 numRepartition

当我尝试将数据帧写入Hive Parket分区表时它将在HDFS中创建大量块，每个块只有少量数据。我了解它是如何进行的，因为每个 spark 子任务将创建一个块，然后将数据写入其中。我也理解，块数会提高Hadoop的性能，但达到阈值后也会降低性能。如果我想自动设置数字分区，有人有一个好主意吗？

火花：将数据帧写入CSV时出错

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档