我是新的火花,我正在尝试安装PySpark通过参考下面的站点。
http://ramhiser.com/2015/02/01/configuring-ipython-totebook-support-for-pyspark/
我尝试安装两个预构建包,也通过SBT构建Spark包。
当我尝试在IPython笔记本中运行python代码时,我得到以下错误。
NameError Traceback (most recent call last)
<ipython-input-1-f7aa330f6984> in <module>()
1 # Check that Spark is working
----> 2 largeRange = sc.parallelize(xrange(100000))
3 reduceTest = largeRange.reduce(lambda a, b: a + b)
4 filterReduceTest = largeRange.filter(lambda x: x % 7 == 0).sum()
5
NameError: name 'sc' is not defined
在命令窗口中,我可以看到下面的错误。
<strong>Failed to find Spark assembly JAR.</strong>
<strong>You need to build Spark before running this program.</strong>
请注意,当我执行spark-shell命令时,得到了一个scala提示符
在一位朋友的帮助下,我可以通过更正.ipython/profile_pyspark/startup/00-pyspark-setup.py文件的内容来修复与Spark assembly JAR相关的问题
我现在只有Spark上下文变量的问题。更改标题以适当地反映我当前的问题。
一种解决方案是将pyspark-shell
添加到shell环境变量pyspark_submit_args中:
export PYSPARK_SUBMIT_ARGS="--master local[2] pyspark-shell"
python/pyspark/java_gateway.py中有一个变化,如果用户设置了PYSPARK_SUBMIT_ARGS变量,则需要PYSPARK_SUBMIT_ARGS包含pyspark-shell
。
我正在尝试使用spark submit server2运行spark程序。py——主本地[2]。然后我得到了这个错误: 以下是我正在运行的代码: 谁能帮我一下我做错了什么。我试过这篇文章中的解决方案无法初始化spark上下文,但它不起作用。
想象一下下面的代码: 如何定义myUdf的返回类型,以便查看代码的人立即知道它返回了一个Double?
我想用Apache Spark读入具有以下结构的文件。 csv太大了,不能使用熊猫,因为读取这个文件需要很长时间。有什么方法类似于 多谢!
我刚从Spark开始。我已经用Spark安装了CDH5。然而,当我尝试使用sparkcontext时,它给出了如下错误 我对此进行了研究,发现了错误:未找到:值sc 并试图启动火花上下文。/Spark-shell。它给错误
Tomcat文档列出了定义上下文的三个位置: 实际上,如果我在目录中添加一个空白的文件,那么当我访问相同的JSP文件时,Tomcat将返回一个404。
我对Spark非常陌生,我正在遵循此文档通过Livy提交Spark jobshttps://docs.microsoft.com/en-us/azure/hdinsight/spark/apache-spark-livy-rest-interface 这是我的命令: 文件test4sparkhaha.jar是一个超级简单的Java应用程序,它只包含一个类,只有一个打印“哈哈哈”的主方法,没有别的.