当前位置: 首页 > 知识库问答 >
问题:

将Jupyter笔记本连接到Spark

宰父深
2023-03-14

我有一台安装了Hadoop和Spark的机器。下面是我目前的环境。

Python3.6

/root/.ipython/profile_pyspark/startup/00-pyspark-setup.py

/root/anaconda3/share/jupyter/kernels/pyspark/kernel.json

kernel.json

{
    "display_name": "PySpark (Spark 2.0.0)",
    "language": "python",
    "argv": [
        "/root/anaconda3/bin/python3",
        "-m",
        "ipykernel",
        "--profile=pyspark"
    ],
    "env": {
        "CAPTURE_STANDARD_OUT": "true",
        "CAPTURE_STANDARD_ERR": "true",
        "SEND_EMPTY_OUTPUT": "false",
        "PYSPARK_PYTHON" : "/root/anaconda3/bin/python3",
        "SPARK_HOME": "/usr/hdp/current/spark-client/"
    }
}
import os
import sys
os.environ["PYSPARK_PYTHON"] = "/root/anaconda3/bin/python"
os.environ["SPARK_HOME"] = "/usr/hdp/current/spark-client"
os.environ["PYLIB"] = os.environ["SPARK_HOME"] + "/python/lib"
spark_home = os.environ.get('SPARK_HOME', None)
sys.path.insert(0, os.environ["PYLIB"] +"/py4j-0.8.2.1-src.zip")
sys.path.insert(0, os.environ["PYLIB"] +"/pyspark.zip")
exec(open(os.path.join(spark_home, 'python/pyspark/shell.py')).read())
c = get_config()
c.NotebookApp.port = 80
jupyter notebook --profile=pyspark

所以,由于sc无法初始化,如果我想运行以下操作,它失败了!

nums = sc.parallelize(xrange(1000000))

谁能帮助我如何配置jupyter笔记本与Spark对话?

共有1个答案

锺离旻
2023-03-14

仅供参考,python 3.6在spark 2.1.1版本之前一直支持NT。见JIRA https://issues.apache.org/JIRA/browse/spark-19019

 类似资料:
  • 问题内容: 我以前在Mac上使用过(python 2和3)。一段时间不使用后,似乎无法解决问题。使用命令从终端启动笔记本时,然后选择我要使用的笔记本,出现错误: 我肯定这与我的Internet连接无关(我尝试了2台连接到不同网络的机器)。 我已经读过浏览器可能是问题所在,因此我已经安装了Chrome和Firefox。但是,当我使用Safari,Chrome和Firefox时出现此错误。 然后我读到

  • 我正试图为用python做一些科学工作设置一个良好的环境。为此,我安装了Jupyter 然后我希望能够拥有不同的环境,并将它们与Jupyter笔记本一起使用。所以我用conda创建了两个自定义环境:py27和py35。 然后在我的笔记本上我有两个内核和。在一个笔记本里,我得到了下面的python3内核: 这与python2内核有关: 我如何设置为python2的minicda env? 如何将co

  • 问题内容: 我正在研究Jupyter Notebook,并希望通过使用Google GPU使其运行更快。我已经进行了一些研究并找到了解决方案,但是它对我没有用。 解决方案是: “最简单的方法是使用Connect to Local Runtime, 然后选择硬件加速器作为GPU,如Google Colab Free GPU Tutorial中所示 。” 我确实设法将googe colab连接到jup

  • 问题内容: 关闭。 此问题不符合堆栈溢出准则。它当前不接受答案。 想改善这个问题吗? 更新问题,使其成为Stack Overflow的主题。 2年前关闭。 改善这个问题 我想在我可以访问的计算机上运行服务器,并且已经能够在本地运行笔记本计算机。 如何设置以便可以 远程 访问? 问题答案: 如果您具有ssh访问将运行服务器的计算机的权限,请执行以下步骤: 1)在将运行 服务器 的机器上,执行: 2)

  • 我正在尝试从git下载Jupyter笔记本。我通过右键单击文件并保存它来下载笔记本。这是一个ipynb文件,但对于它应该包含的内容(114 kb),文件大小对我来说似乎有点大。当我点击Jupyter中的笔记本时,出现以下错误: 无法读取的笔记本:C:\filename。ipynb NotJSONError(“笔记本似乎不是JSON:”\n\n 如何解决此错误,以及如何打开笔记本?

  • 在wsl(Windows linux子系统)中的conda虚拟环境中运行jupyter笔记本时,复制粘贴url将不起作用。它总是显示“响应时间太长”或“连接超时”。