问题：

将Jupyter笔记本连接到Spark

宰父深

2023-03-14

我有一台安装了Hadoop和Spark的机器。下面是我目前的环境。

Python3.6

/root/.ipython/profile_pyspark/startup/00-pyspark-setup.py

/root/anaconda3/share/jupyter/kernels/pyspark/kernel.json

kernel.json

{
    "display_name": "PySpark (Spark 2.0.0)",
    "language": "python",
    "argv": [
        "/root/anaconda3/bin/python3",
        "-m",
        "ipykernel",
        "--profile=pyspark"
    ],
    "env": {
        "CAPTURE_STANDARD_OUT": "true",
        "CAPTURE_STANDARD_ERR": "true",
        "SEND_EMPTY_OUTPUT": "false",
        "PYSPARK_PYTHON" : "/root/anaconda3/bin/python3",
        "SPARK_HOME": "/usr/hdp/current/spark-client/"
    }
}

import os
import sys
os.environ["PYSPARK_PYTHON"] = "/root/anaconda3/bin/python"
os.environ["SPARK_HOME"] = "/usr/hdp/current/spark-client"
os.environ["PYLIB"] = os.environ["SPARK_HOME"] + "/python/lib"
spark_home = os.environ.get('SPARK_HOME', None)
sys.path.insert(0, os.environ["PYLIB"] +"/py4j-0.8.2.1-src.zip")
sys.path.insert(0, os.environ["PYLIB"] +"/pyspark.zip")
exec(open(os.path.join(spark_home, 'python/pyspark/shell.py')).read())

c = get_config()
c.NotebookApp.port = 80

jupyter notebook --profile=pyspark

所以，由于sc无法初始化，如果我想运行以下操作，它失败了！

nums = sc.parallelize(xrange(1000000))

谁能帮助我如何配置jupyter笔记本与Spark对话？

共有1个答案

锺离旻

2023-03-14

仅供参考，python 3.6在spark 2.1.1版本之前一直支持NT。见JIRA https://issues.apache.org/JIRA/browse/spark-19019

类似资料：

Jupyter笔记本内核未连接

问题内容：我以前在Mac上使用过（python 2和3）。一段时间不使用后，似乎无法解决问题。使用命令从终端启动笔记本时，然后选择我要使用的笔记本，出现错误：我肯定这与我的Internet连接无关（我尝试了2台连接到不同网络的机器）。我已经读过浏览器可能是问题所在，因此我已经安装了Chrome和Firefox。但是，当我使用Safari，Chrome和Firefox时出现此错误。然后我读到
将Conda环境与Jupyter笔记本链接

我正试图为用python做一些科学工作设置一个良好的环境。为此，我安装了Jupyter 然后我希望能够拥有不同的环境，并将它们与Jupyter笔记本一起使用。所以我用conda创建了两个自定义环境：py27和py35。然后在我的笔记本上我有两个内核和。在一个笔记本里，我得到了下面的python3内核：这与python2内核有关：我如何设置为python2的minicda env？如何将co
Jupyter笔记本-GPU

问题内容：我正在研究Jupyter Notebook，并希望通过使用Google GPU使其运行更快。我已经进行了一些研究并找到了解决方案，但是它对我没有用。解决方案是： “最简单的方法是使用Connect to Local Runtime，然后选择硬件加速器作为GPU，如Google Colab Free GPU Tutorial中所示。” 我确实设法将googe colab连接到jup
如何连接到远程Jupyter笔记本服务器？[关闭]

问题内容：关闭。此问题不符合堆栈溢出准则。它当前不接受答案。想改善这个问题吗？更新问题，使其成为Stack Overflow的主题。 2年前关闭。改善这个问题我想在我可以访问的计算机上运行服务器，并且已经能够在本地运行笔记本计算机。如何设置以便可以远程访问？问题答案：如果您具有ssh访问将运行服务器的计算机的权限，请执行以下步骤： 1）在将运行服务器的机器上，执行： 2）
PythonGit下载Jupyter笔记本

我正在尝试从git下载Jupyter笔记本。我通过右键单击文件并保存它来下载笔记本。这是一个ipynb文件，但对于它应该包含的内容（114 kb），文件大小对我来说似乎有点大。当我点击Jupyter中的笔记本时，出现以下错误：无法读取的笔记本：C:\filename。ipynb NotJSONError（“笔记本似乎不是JSON:”\n\n 如何解决此错误，以及如何打开笔记本？
WSL内的Jupyter笔记本

在wsl（Windows linux子系统）中的conda虚拟环境中运行jupyter笔记本时，复制粘贴url将不起作用。它总是显示“响应时间太长”或“连接超时”。

将Jupyter笔记本连接到Spark

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档