当前位置: 首页 > 知识库问答 >
问题:

Spark SQL(PySpark)-SparkSession导入错误

蒙胤
2023-03-14

我试图使用Spark-Submit执行一个简单的Spark SQL代码(PySpark),但收到以下错误。注意-我是在Spark2.x中运行的。

从pyspark.sql导入SparkSession imporderror:无法导入名称SparkSession

代码:

 from pyspark.sql import SparkSession
 PRICE_SQ_FT = "Price SQ Ft"

 if __name__ == "__main__":

  session = SparkSession.builder.appName("HousePriceSolution").getOrCreate()    
  realEstate = session.read \
  .option("header","true") \
  .option("inferSchema", value=True) \
  .csv("hdfs:............./RealEstate.csv")

  realEstate.groupBy("Location") \
  .avg(PRICE_SQ_FT) \
  .orderBy("avg(Price SQ FT)") \
  .show()
  session.stop()

共有1个答案

苏涵润
2023-03-14

可能spark-submit指向的是另一个版本的spark。使用以下命令检查spark-submit使用的spark版本:

spark-submit --version

如果spark-version是ok的,那么检查PythonPath包含什么(echo$PythonPath),因为PythonPath有来自另一个Spark版本的pyspark库是正确的。如果PythonPath不包含pyspark库,则向其添加如下内容:

export PYTHONPATH=$PYTHONPATH:"$SPARK_HOME/python/lib/*"
 类似资料:
  • 我已经在windows上安装了PySpark,直到昨天都没有问题。我使用的是、、。昨天,当我尝试创建一个spark会话时,我遇到了以下错误。 我确实查看了github上的pyspark问题以及stackoverflow问题,但这个问题没有解决。 2.)尝试设置,但没有帮助。 请建议我可能的解决办法。

  • 在使用python和pyspark开发数据管道时,我面临以下错误。 PS C:\用户\文件夹\文档\文件夹\项目\code\etl-gd\src\作业\更大数据 代码非常简单,只需尝试一下: Java、spark、python和pyspark的正确安装如下: 提前感谢您的帮助。

  • 上面写着 我怎么才能修好这个?是否需要设置一个环境变量来将Python指向pyspark头/库/等?如果我的spark安装是/spark/,我需要包括哪些pyspark路径?或者pyspark程序只能从pyspark解释器运行吗?

  • 我正试着用这本手册开始tensorflowhttps://www.tensorflow.org/install/install_windows 所有安装都成功完成,我正在使用python 3.5.2和最新版本的pip,遇到这个错误,有人告诉我应该怎么做吗? 在swig\parth\AppData\Local\Programs\Python35\lib\site-p tensorflow\Pytho

  • 问题内容: 我将RDD [myClass]转换为数据框,然后将其注册为SQL表 该表是可调用的,可以用以下命令演示 但是下一步给出了错误,说表未找到:my_rdd Spark的新手。 不明白为什么会这样。有人可以帮我吗? 问题答案: 确保从相同的SQLContext导入hidden._。临时表在一个特定的SQLContext中保留在内存中。

  • 我将RDD[myClass]转换为dataframe,然后将其注册为SQL表 此表是可调用的,可以使用以下命令演示 对Spark来说是个新手。不明白为什么会这样。有谁能帮我摆脱这一切吗?