df.write.mode("overwrite")
.option("maxRecordsPerFile", 10000)
.insertInto(hive_table)
df.write.option("maxRecordsPerFile", 10000)
.mode("overwrite").orc(path_hive_table)
调试步骤:
1.检查配置单元表使用的文件类型
Show create table table_name
并选中“存储为”..为了更好的效率,将输出保存在parquet和分区位置(您可以在上面查询的“location”中看到)。如果有任何其他特定类型,请创建file作为该类型。
alter table {table_name} add partition ({partition_column}={value});
我正在使用Spark SQL读取一个配置单元表,并将其分配给一个scala val 有什么方法可以绕过这个错误吗?我需要将记录插入到同一个表中。 嗨,我试着按建议做,但仍然得到同样的错误。
我在java中开发了一个工作正常的配置单元udf,我的函数返回输入与配置单元表中列之间的最佳匹配,因此它有以下简化的伪代码: 我的问题是,如果这个函数是由Hive调用的,为什么我需要在代码中连接到Hive?我可以使用使用我的功能的用户所连接的当前连接吗?
所以基本上我想创建一个包含csv文件的表
我试图从Spark Sql将数据插入到Hive外部表中。我通过以下命令创建了hive外部表 在spark工作中,我编写了以下代码Dataset df=session。read()。选项(“标题”、“真”)。csv(csvInput); 每次运行这段代码时,我都会遇到以下异常