当前位置: 首页 > 知识库问答 >
问题:

如何使用Scala从Spark更新ORC配置单元表

司马俊晖
2023-03-14
import org.apache.spark.SparkConf
import org.apache.spark.SparkConf
import org.apache.spark._
import org.apache.spark.sql._
import org.apache.spark.sql.hive.HiveContext
import org.apache.spark.sql.hive.orc._

注意:我没有在该表上应用任何分区或桶,如果应用桶,我甚至无法查看存储为ORC Hive版本:1.2.1 Spark版本:1.4.1 Scala版本:2.10.6的数据

共有1个答案

应和光
2023-03-14

您有没有根据下面的链接使用savemode.append尝试过dataframe.write API?

http://spark.apache.org/docs/latest/sql-programming-guide.html#手动-指定-选项

使用“orc”作为格式,“append”作为保存模式。例子在上面的链接中。

 类似资料:
  • 我创建了一个兽人蜂巢表,如下所示: 但是在spark jobs控制台中:它显示了与上述查询跳过的阶段(1)相关的一个作业--spark JDBC服务器查询

  • 我可以更新单个列,但不能更新从另一个表引用的多个列。 我启用了所有ACID属性以支持配置单元(1.2.1)表更新 我有两张桌子, 表1: 模式: 创建表table1(emp_id int,emp_name string,etime timestamp) 数据: emp_id | emp_name | etime 1|大卫|2016-01-08 12:27:30 约翰2016-01-08 12:27

  • 我正在使用Spark SQL读取一个配置单元表,并将其分配给一个scala val 有什么方法可以绕过这个错误吗?我需要将记录插入到同一个表中。 嗨,我试着按建议做,但仍然得到同样的错误。

  • 我已经从Map R集群复制了所有orc文件,并遵循了相同的文件夹结构 创建了位置为#1的orc格式表 然后执行此命令“msck REPAIR TABLE<>” 上面的步骤通过时没有出错,但当我查询分区时,作业失败,出现以下错误 有人能告诉我,我们可以直接从ORC文件创建配置单元ORC分区表吗? 我的存储是蔚蓝数据湖。

  • 我有一个Hive表,它的数据存储为ORC。我在某些字段中写入空值(空白,‘“”),但有时当我对该表运行select查询时,空字符串列在查询结果中显示为NULL。我想看看我输入的空值,这怎么可能?

  • 我设置了一个AWS EMR集群,其中包括Spark 2.3.2、hive 2.3.3和hbase 1.4.7。如何配置Spark以访问hive表? 我采取了以下步骤,但结果是错误消息: Java语言lang.ClassNotFoundException:java。lang.NoClassDefFoundError:org/apache/tez/dag/api/SessionNotRunning使用