问题：

如何理解拼花文件名称的每个部分

勾炜

2023-03-14

案例：part-00000-deb4a3d4-d8c3-4983-8756-ad7e0b29e780.c000.snappy.parquet

我在代码中找不到镶木地板文件的一些规则。有人可以解释吗？

代码： https://github.com/apache/spark/blob/master/sql/core/src/main/scala/org/apache/spark/sql/execution/datasources/FileFormatWriter.scala

https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/internal/io/FileCommitProtocol.scala

共有1个答案

单于轶

2023-03-14

在这种情况下:

part-00000表示分割（的）分区编号。

-deb 4a 3d 4-d8c 3-4983-8756-ad 7 E0 b 29 e 780表示随机UUID，以允许不冲突的Spark操作中的并发写入进程。

“c000”表示一个计数器，指示该分区的文件已被写入的次数。这是零，它在计数。不确定如果超过999会怎么样，说实话。

类似资料：

如何将任何分隔的文本文件转换为拼花/拼花-使用spark sql将列编号/结构动态更改为拼花/拼花？

我们需要每天将文本数据转换为拼花地板/avro，如果输入来自多个具有不同结构的源，我们希望使用基于spark sql的scala代码来实现这一点，而不考虑分隔符和列数或结构。
使用pyrow如何附加到拼花文件？

如何使用pyarrow向拼花地板文件添加/更新？我在文档中找不到任何关于附加拼花文件的内容。此外，您是否可以将pyarrow与多处理一起使用来插入/更新数据。
附加到拼花文件的EMR Spark步骤正在覆盖拼花文件

使用Python 3.6在Amazon EMR集群（1个主节点，2个节点）上运行Spark 2.4.2 我正在Amazon s3中读取对象，将其压缩为拼花格式，并将其添加（附加）到现有的拼花数据存储中。当我在pyspark shell中运行代码时，我能够读取/压缩对象，并将新的拼花文件添加到现有的拼花文件中，当我对拼花数据运行查询时，它显示所有数据都在拼花文件夹中。但是，当我在EMR集群上的步骤中
如何使用ApacheFlink读取HDFS中的拼花文件？

我只找到TextInputFormat和CsvInputFormat。那么，如何使用ApacheFlink读取HDFS中的拼花文件呢？
使用AWS Glue ETL python spark（pyspark）将AWS S3中的多个拼花文件合并为单个拼花文件

我有AWS胶水ETL作业，每15分钟运行一次，每次在S3中生成一个拼花文件。我需要创建另一个作业来运行每小时结束，以使用AWS Glue ETL pyspark代码将S3中的所有4个拼花文件合并为1个拼花文件。有人试过吗？建议和最佳做法？提前感谢！
Impala：如何查询具有不同模式的多个拼花文件

在Spark 2.1中，我经常使用类似的东西加载拼花文件文件夹，即使使用不同的模式。然后，我使用SparkSQL对数据帧执行一些SQL查询。现在我想试试黑斑羚，因为我读了这篇维基文章，其中包含如下句子： Apache Impala是一个开源的大规模并行处理（MPP）SQL查询引擎，用于存储在运行Apache Hadoop[…]的计算机集群中的数据。读取Hadoop文件格式，包括text、LZ

如何理解拼花文件名称的每个部分

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档