http://blog.sina.com.cn/s/blog_4ac9f56e0102w6hc.html
期望spark能让R 的迭代循环快一点,在测试环境装了sparkr
1) 安装spark:下载了1.1.0的spark , Scala 2.10.5, 很容易。可参考:http://blog.csdn.net/jediael_lu/article/details/45310321
2) 安装sparkR ,坑!!!
安装前提:rjava,devtools
a)按照介绍 library(devtools)
install_github("amplab-extras/SparkR-pkg", subdir="pkg")
报错,无法安装。
b)去github下载源码安装,地址为https://github.com/amplab-extras/SparkR-pkg
坑:
build.sbt里面的默认scala tool源是:http://scala-tools.org/
但是该网站不知道什么时候已经停止维护了,需要更改为
https://oss.sonatype.org/content/groups/scala-tools/
安装完后,发现官网很多函数没有,查看版本,SparkR版本为0.1。
c) 下载最新版的1.4.0的spark,我去(坑),已经内置了sparkr,直接调用就可以了
调用方法:libpath <- .libPaths()
libpath <- c(libpath, "/home/r/spark/spark-1.4.0-bin-hadoop2.4/R/lib")
.libPaths(libpath)
rm(libpath)
library(SparkR)
sparkr版本也是1.4,和官网一致。