当前位置: 首页 > 知识库问答 >
问题:

无法使用pyspark将数据加载到配置单元中

张永嘉
2023-03-14

无法通过jupyter笔记本使用pyspark将数据写入hive。

给我下面的错误

Py4JJavaError:调用o99.saveAsTable时发生错误。:org.apache.spark.sql.分析异常:java.lang.运行时异常:java.lang.运行时异常:无法实例化org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient;

注意这些已经尝试过的步骤:

  1. 复制hdfs-site.xml,core-site.xml母舰 /conf
  2. 删除metasotore_db并使用下面的cmd$HIVE_HOME/bin/schematool-initschema-dbtype derby重新创建

共有1个答案

邓浩漫
2023-03-14

您是否使用spark submit运行脚本?你还应该加上-

spark = SparkSession.builder \
    .appName("yourapp") \
    .enableHiveSupport() \
    .getOrCreate()
 类似资料:
  • 我在Hive(beeline)中创建了一个表,下面的命令是: 我还有一个小的自定义文件,其中包含示例记录,如: 有什么想法吗?

  • 我在IBM的数据平台上工作。我能够将数据加载到pyspark数据框架中,并创建了一个spark SQL表。分割数据集后,将其输入分类算法。它会出现诸如spark SQL数据无法加载之类的错误。规定的日期。 错误: TypeError:预期的序列或类似数组,已获取{ 在这个错误之后,我做了这样的事情: 错误: 属性错误回溯(最近一次调用最后一次)在()5 X_序列,y_序列,X_测试,y_测试=序列

  • 我目前正在使用adwords api,我必须处理1天、7天和30天的数据。因此,spark作业是基本的,加载csv并将其写入带有分区的拼花地板: 现在我面临的问题是,7和30天将在某个时候(通过1天前)处理已经处理过的数据,因此在我的分区上,追加将追加第二个拼花文件到这个分区。 但在这种特定情况下,我希望新的拼花文件覆盖上一个文件(因为adwords csv将在生成的第一天到7/30天后进行更改)

  • 我的主要目标是创建一个存储为ORC的表。为此,我遵循了以下步骤 我创建了一个文件夹/user/hive/external,并在同一位置创建了两个表(table_txt和table_orc)。直到将数据加载到table_txt中,它才是好的。 2-当我查询table_txt时,为什么它没有给出任何数据?而在查询table_orc时,我会得到结果?

  • 有58行 然后我将获取所有记录,但当我试图转储原始数据集时 那我就犯错了 失败了! 失败的作业:JobId别名功能消息输出job_1523787662857_0004 pcategories MAP_ONLY消息:作业失败!hdfs:/localhost:9000/tmp/temp-1113251818/tmp-83503168, 输入:无法从“RETAIL_DB.categories”读取数据

  • 我无法将数据加载到表中。我有类,其名称为、等。我想将、插入到TextField上的表播放器中。 我正在执行与下面所示完全相同的操作:http://docs.oracle.com/javase/8/javafx/user-interface-tutorial/table-view.htm#cjagaaee 但我不能让它起作用。有人能帮我吗?