spark和shark

包翔

2023-12-01

配置了hadoop和hive进行测试，发现测试结果并不理想，听其他公司说使用spark可以提高计算速度。

安装spark比较顺利，按网上查到的安装就可以了。

shark的安装就麻烦多了，因为新出了0.9.0和0.9.1，网上查到的大部分都是0.7的安装方法，直接配置上就行了，0.9下下来一看只有1.5M，放上去报没有找到jar包，无法执行，查了半天，发现得自己编译，本地32位ubuntu，服务器64位redhat，服务器上不了网，本地如果装64位ubuntu又下不了ia32包，无法支持wps，只能在本地再安装一个redhat试一下了。安装redhat是后话，现在还没装，装的时候估计还得一堆问题。

在本地执行了sbt/sbt package，想编译一下试试，看能不能用，执行报错，java无法启动：

Error occurred during initialization of VM
Could not reserve enough space for object heap
Error: Could not create the Java Virtual Machine.
Error: A fatal exception has occurred. Program will exit.

上网查了半天也没找到，后来看了一下sbt文件夹下的sbt-launch-lib.bash，发现里面默认使用2048m启动java，本地32位系统，启动不了2048m内存的java，改为1024m再执行就可以了。
报错还在继续........

报错：

正克隆到 '/home/yangyong/.sbt/staging/90b1b0889ba1299e38f2'...
[error] Nonzero exit code (128): git clone git://github.com/ijuma/junit_xml_listener.git /home/yangyong/.sbt/staging/90b1b0889ba1299e38f2
[error] Use 'last' for the full log.

解决：

git config --global url."https://".insteadOf git://

报了一大堆连不上的错啊。估计跟公司的代理设置有关，将地址放到firefox上可以打开，命令行里就报错。直接下了个07的版本。

0.7 的测试结果不理想啊，小表还可以，三个大表关联跑了2个多小时直接溢出了，之前在hive上测试只用了不到700秒，看来还是内存太小了。

测试进行中：

不是0.7的问题，重装了0.8也是一样跑得很慢，12和13两台slave的cpu和磁盘都没动静，后来发现shark的master没配置，所以shark只是自己启动了一个spark，没用集群，配置好了以后发现连不上master，将spark从0.9换回0.8后发现0.8的work又启动不了，总是报绑定hadoop11的0端口失败，后来发现是配置了local_ip，程序复制到12和13时这一项也在，去掉后就好了，没必要配置这个。

再次测试select count(*) t_contract_master发现只用了26秒，再次执行19秒，过了一会执行3秒，select count(*) from t_contract_product用了6秒，不知道是按什么规则缓存的。确实是快了很多啊。

表关联的速度还是一般，跟hive相差不大，仍在测试。

spark和shark

相关阅读

相关文章

相关问答

相关文档