我试图使用下面给出的代码在Google Colab上安装PySpark,但出现以下错误。
此代码已成功运行一次。但它在笔记本重启后抛出此错误。我甚至尝试过从不同的Google帐户运行它,但再次出现相同的错误。
(还有什么方法可以让我们在笔记本重新启动后不需要每次安装PySpark?)
!apt get安装openjdk-8-jdk-headless-qq
!wget-qhttp://apache.osuosl.org/spark/spark-2.3.2/spark-2.3.2-bin-hadoop2.7.tgz
以下这一行似乎导致了问题,因为它找不到下载的文件。
焦油xvfspark-2.3.2-bin-hadoop2.7.tgz
我还尝试了媒体博客上建议的以下两行(而不是上面的两行)。但没有比这更好的了。
!wget-qhttp://mirror.its.dal.ca/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz
焦油xvfspark-2.4.0-bin-hadoop2.7.tgz
!pip安装-q findspark
有没有办法摆脱这个错误并在Colab上安装PySpark?
您之所以会遇到此错误,是因为官方网站和镜像网站上的spark-2.3.2-bin-hadoop2.7已被最新版本替换。
转到此路径中的任何一个并获取最新版本
替换火花构建版本,你就完成了。每件事都将顺利进行。
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://www-us.apache.org/dist/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz
!tar xf /content/spark-2.4.3-bin-hadoop2.7.tgz
!pip install -q findspark
日期:2020年9月6日
步骤1:在google colab上安装pyspark
!pip install pyspark
步骤2:在spark会话中处理熊猫和spark数据帧
!pip install pyarrow
它促进了许多组件之间的通信,例如,使用Python(熊猫)读取拼花文件并转换为Spark数据帧、Falcon数据可视化或Cassandra,而无需担心转换。
步骤3:创建Spark会话
from pyspark.sql import SparkSession
spark = SparkSession.builder.master('local').getOrCreate()
多恩⭐
问题内容: 我正在运行Linux(2.6.18-164.15.1.el5.centos.plus),并尝试安装pyodbc。我正在做pip install pyodbc并得到很长的错误列表,这些错误以 错误:命令“ gcc”失败,退出状态为1 我查看了 /root/.pip/pip.log ,看到了以下内容: InstallationError:命令/ usr / local / bin / py
我试图在PyCharm上安装TensorFlow
我试图通过克隆repo在mac os 10.13上安装Multicorn。在我的机器上,但得到错误,我还安装了mac os 10.13的xcode。 我得到的错误: Python的版本是2.7 clang-wall-Wwiness-原型-Wpoint er-arith-Wdisonation-post-语句-Wfalse=vla-Wendif-标签-Wwiness-forment-属性-Wform
问题内容: 我安装了Python 2.7和NumPy。我已经下载了SciPy的预构建二进制文件,但是安装脚本因以下错误而失败: 找不到Blas库。可以在文件(部分)中指定搜索目录的目录,也可以通过设置BLAS环境变量来指定 目录。 我真的对这件事还不了解。我以为这是一个简单的安装过程,但事实并非如此。我用Google搜索了BLAS环境变量,但是找不到任何合适的变量。任何帮助表示赞赏。 麦克风 编辑
进入插件部分后, 我继续进行常规安装: 但是在一些安装屏幕之后,netbean给了我这个错误: 这发生在加载一段时间后: 有人知道为什么会这样吗? 注意:我使用的是macOS Mojave