安装SparkR有两种方法,一种是通过devtools进行安装,一种是自行进行解压安装
在安装之前SparkR之前需要安装:
rjava;
spark;
R;
Rstudio;
在安装devtools包前先执行如下命令:
sudo apt-get install gfortran
sudo apt-get install build-essential
sudo apt-get install libxt-dev
sudo apt-get install libcurl4-openssl-dev
sudo apt-get install libxml++2.6-dev
sudo apt-get install libssl-dev
然后才在R中进行安装devtools包和sparkR包
install.packages("devtools", dependencies = T)
library(devtools)
install_github("amplab-extras/SparkR-pkg", subdir="pkg")
可以参考博客
http://www.cnblogs.com/payton/p/4227770.html
下面内容转自上述博客:
从网页下载代码SparkR-pkg-master.zip
https://github.com/amplab-extras/SparkR-pkg
1) 解压SparkR-pkg-master.zip,然后cd SparkR-pkg-master/
2) 编译的时候需要指明Hadoop版本和Spark版本
SPARK_HADOOP_VERSION=2.4.1 SPARK_VERSION=1.2.0 ./install-dev.sh
至此,单机版的SparkR已经安装完成。
1) 编译成功后,会生成一个lib文件夹,进入lib文件夹,打包SparkR为SparkR.tar.gz,这个是分布式SparkR部署的关键。
2) 由打包好的SparkR.tar.gz在各集群节点上安装SparkR
R CMD INSTALL SparkR.tar.gz
至此分布式SparkR搭建完成。