sparkR介绍及安装

贺佑运

2023-12-01

SparkR是AMPLab发布的一个R开发包，为Apache Spark提供了轻量的前端。SparkR提供了Spark中弹性分布式数据集（RDD）的API，用户可以在集群上通过R shell交互性的运行job。例如，我们可以在HDFS上读取或写入文件，也可以使用 lapply 来定义对应每一个RDD元素的运算。

 
              sc <- sparkR.init( 
              "local" 
              ) 
             
 
              lines <- textFile(sc, 
              "hdfs://data.txt" 
              ) 
             
 
              wordsPerLine <- lapply(lines, 
              function 
              (line) { length(unlist(strsplit(line, 
              " " 
              ))) }) 
             

除了常见的RDD函数式算子reduce、reduceByKey、groupByKey和collect之外，SparkR也支持利用 lapplyWithPartition 对每个RDD的分区进行操作。 SparkR也支持常见的闭包（closure）功能：用户定义的函数中所引用到的变量会自动被发送到集群中其他的机器上。参见一下例子中用户闭包中引用的 initialWeights 会被自动发送到集群其他机器上。

 
              lines <- textFile(sc, 
              "hdfs://data.txt" 
              ) 
             
              initialWeights <- runif(n=D, min = -1, max = 1) 
             
              createMatrix <-  
              function 
              (line) {  
             
              as.numeric(unlist(strsplit(line, 
              " " 
              ))) %*% t(initialWeights) 
             
              }  
             
              # initialWeights is automatically serialized 
             
              matrixRDD <- lapply(lines, createMatrix)

用户还可以很容易的在已经安装了R开发包的集群上使用SparkR。includePackage 命令用于指示在每个集群上执行操作前读取开发包。以下是个例子：

 
             generateSparse <-  
             function 
             (x) {  
            
             # Use sparseMatrix function from the Matrix package 
            
             sparseMatrix(i=c(1, 2, 3), j=c(1, 2, 3), x=c(1, 2, 3)) 
            
             }  
            
             includePackage(sc, Matrix) 
            
             sparseMat <- lapplyPartition(rdd, generateSparse)

下面介绍如何安装SparkR　

第一步，安装R

参考http://www.myexception.cn/linux-unix/680876.html

由于安装R依赖比较多，故利用iso文件创建本地yum源，见后【一】利用iso镜像文件创建本地yum源

1.1 安装依赖

 
        
             yum  
             install 
             gcc  
            
 
             yum  
             install 
             gcc-c++  
            
 
             yum  
             install 
             gcc-gfortran  
            
 
             yum  
             install 
             pcre-devel  
            
 
             yum  
             install 
             tcl-devel  
            
 
             yum  
             install 
             zlib-devel  
            
 
             yum  
             install 
             bzip2 
             -devel  
            
 
             yum  
             install 
             libX11-devel  
            
 
             yum  
             install 
             readline-devel     
             #否则报”–with-readline=yes (default) and headers/libs are not available”错误 
            
 
             yum  
             install 
             libXt-devel           
             #否则报”configure: error: –with-x=yes (default) and X11 headers/libs are not available”错误 
            
 
             yum  
             install 
             tk-devel  
            
 
             yum  
             install 
             tetex-latex 
            
 
      

1.2 下载源码，编译安装R

下载http://mirror.bjtu.edu.cn/cran/src/base/R-3/R-3.1.1.tar.gz

 
        
             cd 
              /softwares/R 
            
 
             tar 
              -zxvf R-3.1.1. 
             tar 
             .gz 
            
 
             . 
             /configure  
             -- 
             enable 
             -R-shlib （如果使用rJava需要加上 -- 
             enable 
             -R-shlib） 
            
 
             make 
              &&  
             make 
             install 
            
 
      

第二步，安装rjava

参考 http://www.geedoo.info/page/3

在联网的情况下，可以进入R命令，安装rJava包：

 
             install 
             .packages(“rJava”)

如果待安装机器不能上网，可以将源文件下载到本地，然后通过shell命令R CMD INSTALL ‘package_name’来安装：

 
              R CMD INSTALL “rJava_0.9-5. 
              tar 
              .gz”

下载 rJava_0.9-6.tar.gz http://cran.r-project.org/web/packages/rJava/

 
             cd 
              /app/softwares/R 
            
             R CMD INSTALL  
             "rJava_0.9-6.tar.gz"

第三步，安装sbt

下载 http://www.scala-sbt.org/download.html

参考http://www.scala-sbt.org/0.13/tutorial/Manual-Installation.html 进行安装

 
             cd 
              /softwares/sbt 
            
             unzip sbt-0.13.5.zip 
            
             cp 
              sbt 
             /sbt/bin/sbt-launch 
             .jar ~ 
             /bin 
            
             vi2 ~ 
             /bin/sbt 
            
             SBT_OPTS= 
             "-Xms512M -Xmx1536M -Xss1M -XX:+CMSClassUnloadingEnabled -XX:MaxPermSize=256M" 
            
             java $SBT_OPTS -jar ` 
             dirname 
             $0` 
             /sbt-launch 
             .jar 
             "$@" 
            
             chmod 
              u+x ~ 
             /bin/sbt 
            
             [root@cnsz131016 ~] 
             # mkdir -p /root/.ivy2/local/org.scala-sbt/sbt/0.13.5/jars/ 
            
             [root@cnsz131016 ~] 
             # cp /tmp/sbt.jar /root/.ivy2/local/org.scala-sbt/sbt/0.13.5/jars/ 
            
             [root@cnsz131016 ~] 
             # sbt 
            
             Getting org.scala-sbt sbt 0.13.5 ... 
            
             :: retrieving :: org.scala-sbt 
             #boot-app 
            
             confs: [default] 
            
             1 artifacts copied, 0 already retrieved (20kB 
             /69ms 
             ) 
            
             Error during sbt execution: No Scala version specified or detected

由于无法连接外网，所以没有安装成功。

第四步，安装 SparkR

下载 SparkR （http://amplab-extras.github.io/SparkR-pkg/）

 
              mkdir 
               SparkRInstall  
             
              cp 
               amplab-extras-SparkR-pkg-e1f95b6. 
              tar 
              .gz SparkRInstall 
             
              cd 
               SparkRInstall  
             
              tar 
               -zxvf amplab-extras-SparkR-pkg-e1f95b6. 
              tar 
              .gz 
             
              cd 
               amplab-extras-SparkR-pkg-e1f95b6  
             
              sh  
              install 
              -dev.sh 
             
              [root@cnsz031907 amplab-extras-SparkR-pkg-e1f95b6] 
              # ./install-dev.sh 
             
              * installing * 
              source 
              * package ‘SparkR’ ... 
             
              ** libs  
             
              ** arch -  
             
              . 
              /sbt/sbt 
              assembly  
             
              Attempting to fetch sbt 
             
              curl: (6) Couldn 
              't resolve host ' 
              typesafe.artifactoryonline.com' 
             
              curl: (6) Couldn 
              't resolve host ' 
              repo.typesafe.com' 
             
              Launching sbt from sbt 
              /sbt-launch-0 
              .12.4.jar 
             
              Error: Invalid or corrupt jarfile sbt 
              /sbt-launch-0 
              .12.4.jar 
             
              make 
              : *** [target 
              /scala-2 
              .10 
              /sparkr-assembly-0 
              .1.jar] Error 1  
             
              ERROR: compilation failed 
              for 
              package ‘SparkR’ 
             
              * removing ‘ 
              /app/SparkRInstall/amplab-extras-SparkR-pkg-e1f95b6/lib/SparkR 
              ’

由于连不上网，不能直接编译sparkR，故在能联网的机器上对SparkR进行编译，之后再上传使用sbt编译后的包。上传编译后的包之后，使用以下命令进行安装：

 
             sh  
             install 
             -dev.sh

修改R权限，使所有人都可读

 
              chmod 
               755 -R  
              /usr/local/lib64/R 
               /usr/lib64/R 
              /usr/local/bin/R

执行示例：

 
             [hadoop@cnsz031907 SparkR-pkg]$ . 
             /sparkR 
             examples 
             /pi 
             .R 
             local 
            
             WARNING: ignoring environment value of R_HOME 
            
             Loading required package: methods 
            
             Loading required package: rJava 
            
             [SparkR] Initializing with classpath 
             /app/SparkRInstall/SparkR-pkg/lib/SparkR/sparkr-assembly-0 
             .1.jar 
            
             14 
             /09/10 
             17:08:44 INFO Slf4jLogger: Slf4jLogger started  
            
             100000  
            
             100000  
            
             Pi is roughly 3.13832 
            
             Num elements  
             in 
             RDD  200000

修改PATH和CLASSPATH，方便之后使用：

 
              chmod 
               755 -R  
              /app/SparkRInstall/ 
             
              chown 
               -R hadoop:hadoop  
              /app/SparkRInstall/ 
             
              ln 
               -s  
              /app/SparkRInstall/SparkR-pkg 
               /app/sparkR 
             
              vi2  
              /etc/profile 
             
              export 
               SPARKR_HOME= 
              /app/sparkR 
             
              export 
               PATH=$PATH:$SPARKR_HOME/  
             
              source 
               /etc/profile

修改sparkR.profile的权限，因为该文件需要所有用户都可读写。

 
              chmod 
               777  
              /tmp/sparkR 
              .profile

【一】利用iso镜像文件创建本地yum源

1. 创建iso存放目录和挂载目录

 
             mkdir 
              /app/iso 
            
             mkdir 
              /app/cdrom

2. 将iso镜像文件上传到/app/iso文件夹下

3. 将/app/iso/下的iso文件挂载到/mnt/cdrom目录

 
             mount 
              -o loop  
             /app/iso/rhel-server-6 
             .5-x86_64-dvd.iso 
             /app/cdrom

注：挂载完之后对其操作会提示设备繁忙，此时需要umount解开挂载才行

查看是否挂载成功： df -h <用来查看系统中所有挂载的，mount也可以

4.<最关键的一步>如果/etc/yum.repos/下面有其它的*.repo文件，先创建个文件夹，将这些*.repo先转移到文件夹中，自己写一个.repo的文件

 
              mkdir 
               /etc/yum 
              .repos.d 
              /bak 
             
              mv 
               *.repo  
              /etc/yum 
              .repos.d 
              /bak

然后创建自己的.repo文件 vi myself.repo 内容如下：

 
             [base]  
            
             name=RedHat  
            
             #注：这里的baseurl就是你挂载的目录，在这里是/mnt/cdrom 
            
             baseurl= 
             file 
             : 
             ///app/cdrom    
            
             #注：这里的值enabled一定要为1  
            
             enabled=1                    
            
             gpgckeck的值无所谓  
            
             gpgckeck=0  
            
             #注：这个你cd /mnt/cdrom/可以看到这个key，这里仅仅是个例子 
            
             gpgkey= 
             file 
             : 
             ///app/cdrom/RPM-GPG-KEY-redhat-release

5. 测试：

 
             yum clean all  
            
             yum  
             install 
             gcc-gfortran

sparkR介绍及安装

相关阅读

相关文章

相关问答

相关文档