问题：

无法使用pyspark将数据加载到配置单元中

张永嘉

2023-03-14

无法通过jupyter笔记本使用pyspark将数据写入hive。

给我下面的错误

Py4JJavaError：调用o99.saveAsTable时发生错误。：org.apache.spark.sql.分析异常：java.lang.运行时异常：java.lang.运行时异常：无法实例化org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient；

注意这些已经尝试过的步骤：

复制hdfs-site.xml，core-site.xml母舰 /conf
删除metasotore_db并使用下面的cmd$HIVE_HOME/bin/schematool-initschema-dbtype derby重新创建

共有1个答案

邓浩漫

2023-03-14

您是否使用spark submit运行脚本？你还应该加上-

spark = SparkSession.builder \
    .appName("yourapp") \
    .enableHiveSupport() \
    .getOrCreate()

类似资料：

加载数据后无法读取配置单元表

我在Hive（beeline）中创建了一个表，下面的命令是：我还有一个小的自定义文件，其中包含示例记录，如：有什么想法吗？
无法将pyspark数据帧加载到决策树算法。它说不能使用pyspark数据帧

我在IBM的数据平台上工作。我能够将数据加载到pyspark数据框架中，并创建了一个spark SQL表。分割数据集后，将其输入分类算法。它会出现诸如spark SQL数据无法加载之类的错误。规定的日期。错误： TypeError:预期的序列或类似数组，已获取{ 在这个错误之后，我做了这样的事情：错误：属性错误回溯（最近一次调用最后一次）在（）5 X_序列，y_序列，X_测试，y_测试=序列
使用配置单元的pyspark，append将添加到现有分区并复制数据

我目前正在使用adwords api，我必须处理1天、7天和30天的数据。因此，spark作业是基本的，加载csv并将其写入带有分区的拼花地板：现在我面临的问题是，7和30天将在某个时候（通过1天前）处理已经处理过的数据，因此在我的分区上，追加将追加第二个拼花文件到这个分区。但在这种特定情况下，我希望新的拼花文件覆盖上一个文件（因为adwords csv将在生成的第一天到7/30天后进行更改）
将数据从txt表加载到orc表配置单元查询

我的主要目标是创建一个存储为ORC的表。为此，我遵循了以下步骤我创建了一个文件夹/user/hive/external，并在同一位置创建了两个表(table_txt和table_orc)。直到将数据加载到table_txt中，它才是好的。 2-当我查询table_txt时，为什么它没有给出任何数据？而在查询table_orc时，我会得到结果？
转储数据集时将数据从配置单元加载到Pig错误

有58行然后我将获取所有记录，但当我试图转储原始数据集时那我就犯错了失败了！失败的作业：JobId别名功能消息输出job_1523787662857_0004 pcategories MAP_ONLY消息：作业失败！hdfs:/localhost:9000/tmp/temp-1113251818/tmp-83503168，输入：无法从“RETAIL_DB.categories”读取数据
无法将数据加载到TableView

我无法将数据加载到表中。我有类，其名称为、等。我想将、插入到TextField上的表播放器中。我正在执行与下面所示完全相同的操作:http://docs.oracle.com/javase/8/javafx/user-interface-tutorial/table-view.htm#cjagaaee 但我不能让它起作用。有人能帮我吗？

无法使用pyspark将数据加载到配置单元中

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档