当前位置: 首页 > 知识库问答 >
问题:

pyspark无法创建spark数据帧

仲孙绍元
2023-03-14

我想使用PySpark创建spark数据帧,为此我在PyCharm中运行了以下代码:

from pyspark.sql import SparkSession
Spark_Session:SparkSession.builder\
.enableHiveSupport()\
.master("local"\
.getOrCreate()

但是,它会返回此错误:

使用 Spark 的默认 log4j 配置文件:组织/缓存/火花/log4j-defaults.属性 将默认日志级别设置为“WARN”。要调整日志记录级别,请使用 sc.setLogLevel(新级别)。对于 SparkR,请使用 setLogLevel(新级别)。18/01/08 10:17:55 WARN 本机代码加载程序:无法为您的平台加载本机 hadoop 库...在适用的情况下使用内置 Java 类 18/01/08 10:18:14 WARN 对象存储:无法获取数据库global_temp,返回 NoSuch 对象异常

这个问题我应该怎么解决

共有1个答案

丁兴德
2023-03-14

你在哪里运行这个?Hadoop安装了吗?Spark似乎找不到它:无法为您的平台加载本机hadoop库…使用内置java类。您需要确保正确的库可用。在Spark UI中,您可以检查上下文。

尝试:

from pyspark.sql import SparkSession

spark = SparkSession \
    .builder \
    .appName("Spark Example") \
    .getOrCreate()

这应该有效。

 类似资料:
  • 有人可以帮助我解决这个问题,我与火花数据帧? 当我执行myFloatRDD时。toDF()我收到一个错误: 类型错误:无法推断类型的架构:类型“浮动” 我不明白为什么... 例子: 谢谢

  • 我必须将Scala代码转换为python。 scala代码将string的RDD转换为case类的RDD。代码如下: 可以在PySpark中实现吗?我尝试使用以下代码,但出现错误 错误Py4JJavaError:调用z:org时出错。阿帕奇。火花应用程序编程接口。蟒蛇蟒蛇。收集和服务:组织。阿帕奇。火花SparkException:作业因阶段失败而中止:阶段21.0中的任务0失败1次,最近的失败:

  • 我已经在windows上安装了PySpark,直到昨天都没有问题。我使用的是、、。昨天,当我尝试创建一个spark会话时,我遇到了以下错误。 我确实查看了github上的pyspark问题以及stackoverflow问题,但这个问题没有解决。 2.)尝试设置,但没有帮助。 请建议我可能的解决办法。

  • TL;博士 Spark 1.6.1无法在没有HDFS的独立群集上使用Spark CSV 1.4写入CSV文件,IOException Mkdirs无法创建文件 更多详细信息: 我正在使用Scala使用本地文件系统(我运行的机器上甚至没有HDFS)在独立集群上运行它的Spark 1.6.1应用程序。我有这个数据框架,我试图使用HiveContext将其保存为CSV文件。 这就是我正在运行的: 我使用

  • 我确信这是一个简单的SQLContext问题,但我在Spark docs或Stackoverflow中找不到任何答案 我想从MySQL上的SQL查询创建一个Spark数据框 例如,我有一个复杂的MySQL查询,如 我想要一个带有X、Y和Z列的数据帧 我想出了如何将整个表加载到Spark中,然后可以将它们全部加载,然后在那里进行连接和选择。然而,这是非常低效的。我只想加载SQL查询生成的表。 这是我

  • 错误: unsatisfiedDependencyException:创建名为“app controller”的bean时出错:通过字段“service”表示的未满足的依赖关系;嵌套异常为org.springframework.beans.factory.unsatisfieddependencyexception:创建名为“jenkins service”的bean时出错:通过字段“repo”表