解压缩多个*.gz文件，并在spark scala中生成一个csv文件

熊烨

2023-03-14

 part-0000-XXXX.csv.gz
 part_0001-YYYY.csv.gz
 part-0002-ZZZZ.csv.gz
 .
 .
 .
 .
 part-0010_KKKK.csv.gz.

共有1个答案

孙成益

2023-03-14

下面提到的代码似乎运行良好。

scala> val rdd = sc.textFile("/root/data")
rdd: org.apache.spark.rdd.RDD[String] = /root/data MapPartitionsRDD[1] at textFile at <console>:24


scala> rdd.coalesce(1).saveAsTextFile("/root/combinedCsv", classOf[org.apache.hadoop.io.compress.GzipCodec])

您可以看到输入数据位于/root/data目录中，而gzip格式的组合csv存储在/root/combinedcsv目录中。

更新

scala> rdd.coalesce(1).saveAsTextFile("/root/combinedCsv")

类似资料：

读取压缩在一个文件中的多个csv文件

我在on文件夹的几个zip文件中有几个csv文件，例如： null zip中的一个csv是这样工作的：你知道如何优化这个循环吗？
如何在压缩文件中的文件夹中打开多个csv文件

压缩文件-->10个文件夹--每个文件夹>20个csv文件 null 尝试了以下代码，但不起作用
Kafka使用者解压缩gz文件流并读取

Kafka producer正在发送.gz文件，但无法在消费者端解压缩和读取文件。获取错误为“IOError：不是gzipped文件” producer-bin/kafka-console-producer.sh--broker-list localhost:9092-topic Airport<~/downloads/stocks.json.gz 消费者- 使用者出错-
如何解压缩一个zip文件在另一个zip文件？

我有多个zip文件在一个文件夹和另一个zip文件存在于每一个这些zip文件夹。我想解压第一个和第二个zip文件夹，并创建它们自己的目录。这是结构如上所示，在中，我们有多个zip文件，在每个zip文件中，都存在另一个zip文件。我想解压缩，，和到新的文件夹中。我想使用与父zip文件夹相同的名称来放置每个结果。我尝试了以下答案，但这只解压缩第一个文件夹。顺便说一句，我在Jenkins管道中运行这
使用python解压缩.gz文件的一部分

问题内容：这就是问题所在。我有sample.gz文件，大小约为60KB。我想解压缩该文件的前2000个字节。我遇到了CRC检查失败的错误，我猜是因为gzip CRC字段出现在文件末尾，并且它需要整个gzip压缩文件进行解压缩。有办法解决这个问题吗？我不在乎CRC检查。即使由于CRC错误而无法解压缩，也可以。有没有办法解决这个问题并解压缩部分.gz文件？我到目前为止的代码是遇到的错误是还可以
Julia：解压缩压缩文件中的压缩文件

我正在使用Julia的ZipFile包来提取和处理csv文件。没问题，但是当我遇到zip文件中的zip文件时，我也想处理它，但是遇到了一个错误。 Julia ZipFile文档如下：https://zipfilejl.readthedocs.io/en/latest/ 对如何做到这一点有什么想法吗？

解压缩多个*.gz文件，并在spark scala中生成一个csv文件

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档