问题：

在写入HDFS或S3时Spark会锁定文件吗

宦博超

2023-03-14

我有一个具有以下目录结构的S3位置，其顶部创建了一个配置单元表：

s3://<Mybucket>/<Table Name>/<day Partition>

假设我有一个Spark程序，它使用下面的代码行将数据跨多个分区写入上面的表位置：

Df.write.partitionBy("orderdate").parquet("s3://<Mybucket>/<Table Name>/")

spark在写入S3位置时是否锁定数据文件？

我们如何使用Spark作为ETL工具来处理这样的并发情况？

共有1个答案

程鸿畅

2023-03-14

Spark以两步过程写入输出。首先，它将数据写到_temporary目录，然后一旦写操作完成并成功，它就将文件移动到输出目录。

他们是否考虑写临时文件？

因为以_开头的文件是隐藏文件，所以不能从Hive或AWS Athena读取它们。

这里还要注意的一点是，在上面的示例中，在将输出写入输出目录之后，需要使用ALTER table add partition(...)命令或MSCK修复表tbl_name命令将分区添加到配置单元外部表中，否则配置单元中的数据将不可用。

类似资料：

在spark流上下文中将RDD写入HDFS

我有一个火花1.2.0的火花流环境，我从本地文件夹中检索数据，每次我发现一个新文件添加到文件夹中时，我都会执行一些转换。为了对DStream数据执行分析，我必须将其转换为数组然后，我使用获得的数据提取我想要的信息，并将其保存在HDFS上。由于我真的需要使用Array操作数据，因此不可能使用（这将正常工作）在HDFS上保存数据，我必须保存RDD，但使用此先决条件，我终于有了名为part-000
在写入HDFS-hive时，如何控制Spark流中的行数和/或输出文件大小？

使用火花流读取和处理来自Kafka的消息并写入HDFS-Hive。由于我希望避免创建许多垃圾文件系统的小文件，我想知道是否有办法确保最小的文件大小，和/或强制在文件中输出行数最少的能力，超时除外。谢谢。
使用Java在hdfs中写入文件

问题内容：我想在HDFS中创建文件并在其中写入数据。我使用以下代码：它创建文件，但不写入任何内容。我搜索了很多，但没有找到任何东西。我怎么了我是否需要任何权限才能在HDFS中写入？问题答案：的替代方法，你可以在获取文件系统时传递URI
PHP文件锁定写入实例解析

本文向大家介绍PHP文件锁定写入实例解析，包括了PHP文件锁定写入实例解析的使用技巧和注意事项，需要的朋友参考一下本文以实例讲述了PHP文件写入方法，以应对多线程写入，具体代码如下：其中flock(int $handle, int $operation)函数操作的 handle 必须是一个已经打开的文件指针。 operation 可以是以下值之一：要取得共享锁定（读取的程序），将 opera
Spark/Yarn：文件在HDFS上不存在

我在AWS上有一个Hadoop/Yarn集群设置，我有一个主服务器和三个从服务器。我已经验证有3个活动节点在端口50070和8088上运行。我在客户机部署模式下测试了一个spark工作，一切都很好。当我尝试使用。我得到以下错误。
Spark Avro在文件写入时引发异常：NoSuchMethodError

任何Avro格式的文件写入尝试都会失败，堆栈跟踪如下。我们正在使用Spark 2.4.3（使用用户提供的Hadoop）、Scala 2.12，并且我们在运行时使用任一Spark-shell加载Avro包： org.apache.sparkavro_2 或spark提交：提交org.apache.sparkavro_2 spark会话报告已成功加载Avro包。 ... 在任何一种情况下，当我们尝

在写入HDFS或S3时Spark会锁定文件吗

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档