问题：

Spark分区：创建RDD分区，但不创建配置单元分区

顾均

2023-03-14

这是将Spark dataframe保存为Hive中的动态分区表的后续操作。我试图在答案中使用建议，但无法在Spark 1.6.1中使用

hc.setConf("hive.metastore.warehouse.dir", "tmp/tests")
//    hc.setConf("hive.exec.dynamic.partition", "true")
//    hc.setConf("hive.exec.dynamic.partition.mode", "nonstrict")
hc.sql("create database if not exists tmp")
hc.sql("drop table if exists tmp.partitiontest1")

Seq(2012 -> "a").toDF("year", "val")
  .write
  .partitionBy("year")
  .mode(SaveMode.Append)
  .saveAsTable("tmp.partitiontest1")
hc.sql("show partitions tmp.partitiontest1").show

======================
HIVE FAILURE OUTPUT
======================
SET hive.support.sql11.reserved.keywords=false
SET hive.metastore.warehouse.dir=tmp/tests
OK
OK
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Table tmp.partitiontest1 is not a partitioned table
======================

任何推动这一进程的帮助都是感激的。

编辑：还创建了SPARK-14927

共有1个答案

常乐

2023-03-14

我找到了一个解决方案：如果预先创建表，那么saveAsTable（）就不会搞砸它。所以下面的工作：

hc.setConf("hive.metastore.warehouse.dir", "tmp/tests")
//    hc.setConf("hive.exec.dynamic.partition", "true")
//    hc.setConf("hive.exec.dynamic.partition.mode", "nonstrict")
hc.sql("create database if not exists tmp")
hc.sql("drop table if exists tmp.partitiontest1")

// Added line:
hc.sql("create table tmp.partitiontest1(val string) partitioned by (year int)")   


Seq(2012 -> "a").toDF("year", "val")
  .write
  .partitionBy("year")
  .mode(SaveMode.Append)
  .saveAsTable("tmp.partitiontest1")
hc.sql("show partitions tmp.partitiontest1").show

此变通方法在1.6.1中有效，但在1.5.1中无效

类似资料：

如果我从分区的配置单元表创建DataFrame，将创建多少个分区？

我有一个分区的Hive表。如果我想从这个表中创建一个spark数据帧，那么将创建多少个数据帧分区？
spark在S3上的分区内创建分区

我有以下制表符分隔的示例数据集：我正在对此数据运行一些转换，最终数据位于spark dataset中。之后，我用“period”分区将该数据集写入s3。因为我也希望在s3文件中使用period,所以我正在从from period列创建另一列“datasetperiod”。我的scala函数来保存TSV数据集。在S3上保存数据集的Scala代码。为S3上的分区添加新列datasetPeriod
创建配置单元分区表HDFS位置帮助

当然，希望有人能帮助我创建外部配置单元分区表，方法是根据HDFS目录中的逗号分隔文件自动添加数据。我的理解（或缺乏理解）是，当您定义一个已分区的CREATE外部表并为其提供一个位置时，它应该递归地扫描/读取每个子目录，并将数据加载到新创建的已分区的外部表中。下面的内容应该会对我的烦恼提供一些更多的了解… 每个'dt='子目录都包含分隔的文件。
Spark重新分区创建的分区超过128 MB

假设我有一个1.2 GB的文件，那么考虑到128 MB的块大小，它将创建10个分区。现在，如果我将其重新分区(或合并)为4个分区，这意味着每个分区肯定会超过128 MB。在这种情况下，每个分区必须容纳320 MB的数据，但块大小是128 MB。我有点糊涂了。这怎么可能？我们如何创建一个大于块大小的分区？
创建Spark dataframe时的分区数

我创建一个数据文件，导入一个大约8MB的csv文件，如下所示：最后，我打印dataframe的分区数：答案是2。
在配置单元中的外部表中创建分区

1-创建了源表 2-将数据从本地加载到源表 3-创建了另一个带有分区的表-partition_table 我不确定如何在外部表中进行分区。有人能帮我一步一步地描述一下吗？。

Spark分区：创建RDD分区，但不创建配置单元分区

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档