环境设置(Environment Setup)
优质
小牛编辑
147浏览
2023-12-01
在本章中,我们将了解PySpark的环境设置。
Note - 这是考虑到您的计算机上安装了Java和Scala。
现在让我们通过以下步骤下载并设置PySpark。
Step 1 - 转到官方Apache Spark download页面并下载最新版本的Apache Spark。 在本教程中,我们使用spark-2.1.0-bin-hadoop2.7 。
Step 2 - 现在,解压缩下载的Spark tar文件。 默认情况下,它将下载到Downloads目录中。
# tar -xvf Downloads/spark-2.1.0-bin-hadoop2.7.tgz
它将创建一个目录spark-2.1.0-bin-hadoop2.7 。 在启动PySpark之前,需要设置以下环境来设置Spark路径和Py4j path 。
export SPARK_HOME = /home/hadoop/spark-2.1.0-bin-hadoop2.7
export PATH = $PATH:/home/hadoop/spark-2.1.0-bin-hadoop2.7/bin
export PYTHONPATH = $SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
export PATH = $SPARK_HOME/python:$PATH
或者,要全局设置上述环境,请将它们放在.bashrc file 。 然后运行以下命令以使环境正常工作。
# source .bashrc
现在我们已经设置了所有环境,让我们转到Spark目录并通过运行以下命令调用PySpark shell -
# ./bin/pyspark
这将启动你的PySpark shell。
Python 2.7.12 (default, Nov 19 2016, 06:48:10)
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
____ __
/__/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__/.__/\_,_/_/ /_/\_\ version 2.1.0
/_/
Using Python version 2.7.12 (default, Nov 19 2016 06:48:10)
SparkSession available as 'spark'.
<<<