在配置单元表hdfs文件夹中写入文件，并使其可从配置单元查询

毛弘博

2023-03-14

df.write.mode("overwrite")
  .option("maxRecordsPerFile", 10000)
 .insertInto(hive_table)

df.write.option("maxRecordsPerFile", 10000)
  .mode("overwrite").orc(path_hive_table)

共有1个答案

欧奇希

2023-03-14

调试步骤：

1.检查配置单元表使用的文件类型

Show create table table_name

并选中“存储为”..为了更好的效率，将输出保存在parquet和分区位置（您可以在上面查询的“location”中看到）。如果有任何其他特定类型，请创建file作为该类型。

alter table {table_name} add partition ({partition_column}={value});

类似资料：

从配置单元表读取并使用spark sql写回配置单元表

我正在使用Spark SQL读取一个配置单元表，并将其分配给一个scala val 有什么方法可以绕过这个错误吗？我需要将记录插入到同一个表中。嗨，我试着按建议做，但仍然得到同样的错误。
使用配置单元表的配置单元UDF

我在java中开发了一个工作正常的配置单元udf，我的函数返回输入与配置单元表中列之间的最佳匹配，因此它有以下简化的伪代码：我的问题是，如果这个函数是由Hive调用的，为什么我需要在代码中连接到Hive？我可以使用使用我的功能的用户所连接的当前连接吗？
从以orc格式存储在hdfs中的文件创建配置单元表

包含文本：
如何创建包含多个hdfs文件的配置单元表

所以基本上我想创建一个包含csv文件的表
使用配置单元生成拼花文件
从Spark Sql写入配置单元表时出错

我试图从Spark Sql将数据插入到Hive外部表中。我通过以下命令创建了hive外部表在spark工作中，我编写了以下代码Dataset df=session。read（）。选项（“标题”、“真”）。csv（csvInput）；每次运行这段代码时，我都会遇到以下异常