当前位置: 首页 > 知识库问答 >
问题:

在Google Colab上安装Spark时出错

邴俊达
2023-03-14

我在Google Colab上安装火花时出错。它说

tar:spark-2.2.1-bin-hadoop2.7.tgz:无法打开:没有这样的文件或目录tar:错误不可恢复:现在退出。

这是我的步骤

  • ! apt-get install openjdk-8-jdk-head less-qq

在此输入图像描述

共有3个答案

陈昊昊
2023-03-14

这是正确的代码。我只是测试了一下。

!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q http://mirrors.viethosting.com/apache/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz
!tar xf spark-2.4.4-bin-hadoop2.7.tgz
!pip install -q findspark
程智明
2023-03-14

此错误与代码第二行中使用的链接有关。以下代码片段在Google Colab上对我有用。不要忘记将spark版本更改为最新版本,并相应地更改spark-HOME路径。您可以在此处找到最新版本:https://downloads.apache.org/spark/

!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://downloads.apache.org/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop2.7.tgz
!tar -xvf spark-3.0.0-preview2-bin-hadoop2.7.tgz
!pip install -q findspark
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.0.0-preview2-bin-hadoop2.7"
import findspark
findspark.init()
黄修永
2023-03-14

问题是由于您用于下载spark的下载链接导致的:

<代码>http://apache.osuosl.org/spark/spark-2.2.1/spark-2.2.1-bin-hadoop2.7.tgz

要下载spark而没有任何问题,您应该从他们的存档网站下载它(https://archive.apache.org/dist/spark )。

例如,以下来自存档网站的下载链接可以正常工作:

<代码>https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz

以下是安装和设置java、spark和pyspark的完整代码:

# innstall java
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

# install spark (change the version number if needed)
!wget -q https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz

# unzip the spark file to the current folder
!tar xf spark-3.0.0-bin-hadoop3.2.tgz

# set your spark folder to your system path environment. 
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.0.0-bin-hadoop3.2"


# install findspark using pip
!pip install -q findspark

对于python用户,还应该使用以下命令安装pyspark。

<代码>!pip安装pyspark

 类似资料:
  • 试图在Mac上安装Spark和相关程序,但在测试安装时收到错误消息。 /Users/somedirectory/apachespark/spark-2.3.0-bin-hadoop2.7/bin/pyspark/Users/somedirectory/apachespark/spark-2.3.0-bin-hadoop2.7/bin/spark-class:第71行:/Library/Java/J

  • 当我尝试在ubuntu上安装Yeoman时,我得到了以下错误。 编辑 尝试MortezaLSC的解决方案后-我得到以下错误

  • HTTP请求已发送,正在等待响应...404找不到2018-07-18 14:49:48错误404:找不到。

  • 问题内容: 我一直在尝试在Catalina的Mac上安装PyGame,但不知道该如何做。我得到的错误消息是:SystemExit:错误:命令’gcc’失败,退出状态为1。与python设置不正确有关吗?我已经尝试了多种安装软件包的方法,但是每当我运行setup.py时,它都会显示错误消息。我可以将pygame文件夹移到某个地方,使其成为python模块的一部分吗?您的帮助将不胜感激!这是错误消息:

  • 我试图安装Android ADT的Eclipse从http://developer.android.com/sdk/installing/installing-adt.html 并得到以下错误: 如果有帮助的话,我正在运行windows8.1并使用最新版本的Eclipse。非常感谢。

  • 问题内容: Node和npm均已安装并且是最新的,但是在尝试安装coffeescript时始终出现此错误。我还是编程新手,所以任何建议都将不胜感激。 问题答案: 错误消息非常清楚: 您没有必要的权限,因此无法安装。尝试使用: npm作者建议不要使用,因为软件包可以运行任意命令,因此很危险。他建议将的所有权切换到您的用户。我认为这是一种可怕的建议,只会给您一种错误的安全感:如果一个程序包可以运行任意