我试图使用Spark-Submit执行一个简单的Spark SQL代码(PySpark),但收到以下错误。注意-我是在Spark2.x中运行的。
从pyspark.sql导入SparkSession imporderror:无法导入名称SparkSession
代码:
from pyspark.sql import SparkSession
PRICE_SQ_FT = "Price SQ Ft"
if __name__ == "__main__":
session = SparkSession.builder.appName("HousePriceSolution").getOrCreate()
realEstate = session.read \
.option("header","true") \
.option("inferSchema", value=True) \
.csv("hdfs:............./RealEstate.csv")
realEstate.groupBy("Location") \
.avg(PRICE_SQ_FT) \
.orderBy("avg(Price SQ FT)") \
.show()
session.stop()
可能spark-submit
指向的是另一个版本的spark。使用以下命令检查spark-submit
使用的spark版本:
spark-submit --version
如果spark-version是ok的,那么检查PythonPath
包含什么(echo$PythonPath
),因为PythonPath
有来自另一个Spark版本的pyspark库是正确的。如果PythonPath
不包含pyspark库,则向其添加如下内容:
export PYTHONPATH=$PYTHONPATH:"$SPARK_HOME/python/lib/*"
我已经在windows上安装了PySpark,直到昨天都没有问题。我使用的是、、。昨天,当我尝试创建一个spark会话时,我遇到了以下错误。 我确实查看了github上的pyspark问题以及stackoverflow问题,但这个问题没有解决。 2.)尝试设置,但没有帮助。 请建议我可能的解决办法。
在使用python和pyspark开发数据管道时,我面临以下错误。 PS C:\用户\文件夹\文档\文件夹\项目\code\etl-gd\src\作业\更大数据 代码非常简单,只需尝试一下: Java、spark、python和pyspark的正确安装如下: 提前感谢您的帮助。
上面写着 我怎么才能修好这个?是否需要设置一个环境变量来将Python指向pyspark头/库/等?如果我的spark安装是/spark/,我需要包括哪些pyspark路径?或者pyspark程序只能从pyspark解释器运行吗?
我正试着用这本手册开始tensorflowhttps://www.tensorflow.org/install/install_windows 所有安装都成功完成,我正在使用python 3.5.2和最新版本的pip,遇到这个错误,有人告诉我应该怎么做吗? 在swig\parth\AppData\Local\Programs\Python35\lib\site-p tensorflow\Pytho
问题内容: 我将RDD [myClass]转换为数据框,然后将其注册为SQL表 该表是可调用的,可以用以下命令演示 但是下一步给出了错误,说表未找到:my_rdd Spark的新手。 不明白为什么会这样。有人可以帮我吗? 问题答案: 确保从相同的SQLContext导入hidden._。临时表在一个特定的SQLContext中保留在内存中。
我将RDD[myClass]转换为dataframe,然后将其注册为SQL表 此表是可调用的,可以使用以下命令演示 对Spark来说是个新手。不明白为什么会这样。有谁能帮我摆脱这一切吗?