配置单元分区表上的火花行为

巫墨一

2023-03-14

更新：恰恰相反。实际上，我们的表非常大，就像3个TB有2000个分区。3TB/256MB实际上会达到11720，但我们的分区数量与表的物理分区数量完全相同。我只想了解任务是如何在数据量上生成的。

共有1个答案

红甫

2023-03-14

通常，Hive分区不是1：1映射到Spark分区。1个配置单元分区可以拆分为多个Spark分区，一个Spark分区可以容纳多个配置单元分区。

加载配置单元表时Spark分区的数量取决于以下参数：

spark.files.maxPartitionBytes (default 128MB)
spark.files.openCostInBytes (default 4MB)

您可以检查分区，例如使用

spark.table(yourtable).rdd.partitions

类似资料：

Spark上的配置单元列出特定配置单元表的所有分区，并添加一个分区

我正在使用Spark2.0，我想知道，是否可以列出特定配置单元表的所有文件？如果是这样，我可以直接使用spark增量地更新这些文件。如何向配置单元表添加新分区？有没有关于蜂巢转移瘤的api我可以从Spark使用？有什么方法可以获得映射dataframe的内部配置单元函数吗我的主要理由是对表进行增量更新。现在，我知道的唯一方法是SQL+，这不是很有效，因为他将覆盖所有表，而我主要感兴趣的是对某些
配置单元外部表无法看到分区拼花文件

我正在使用Spark生成拼花文件（通过分区，使用Snappy压缩），并将它们存储在HDFS位置。拼花数据文件存储在下然后为其创建配置单元表,如下所示：
加载到配置单元分区拼花表时内存不足

先声明一下，这不是Hadoop的生产环境。这是一个我们测试工作流的单节点环境
已分区表中的配置单元加载
使用 API 而不是 SQL 从火花创建配置单元表？

我想创建一个带有分区的hive表。该表的架构为：我可以使用Spark-SQL实现这一点: 当我尝试使用 Spark API（使用斯卡拉）时，表中充满了数据。我只想创建一个空表并定义分区。这就是我正在做的事情，我做错了什么：我正在使用Spark-2.1.1。
从配置单元表动态删除分区

我有一个配置单元表，其中一个date列上存在分区，但date列以YYYYMMDD格式存储为INT。该表还可以包含未来日期分区的数据。现在，作为过程的一部分，我希望删除那些在处理日（位于处理日）上运行的分区。当我编写drop分区时，比如，那么它工作正常。考虑到我的输入将是唯一的日期格式YYYY-MM-DD和我已经删除所有分区已给出输入日期-1；如何使上述陈述奏效？

配置单元分区表上的火花行为

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档