当前位置: 首页 > 工具软件 > Shark > 使用案例 >

spark和shark

包翔
2023-12-01

配置了hadoop和hive进行测试,发现测试结果并不理想,听其他公司说使用spark可以提高计算速度。

安装spark比较顺利,按网上查到的安装就可以了。

shark的安装就麻烦多了,因为新出了0.9.0和0.9.1,网上查到的大部分都是0.7的安装方法,直接配置上就行了,0.9下下来一看只有1.5M,放上去报没有找到jar包,无法执行,查了半天,发现得自己编译,本地32位ubuntu,服务器64位redhat,服务器上不了网,本地如果装64位ubuntu又下不了ia32包,无法支持wps,只能在本地再安装一个redhat试一下了。安装redhat是后话,现在还没装,装的时候估计还得一堆问题。

在本地执行了sbt/sbt package,想编译一下试试,看能不能用,执行报错,java无法启动:

Error occurred during initialization of VM
Could not reserve enough space for object heap
Error: Could not create the Java Virtual Machine.
Error: A fatal exception has occurred. Program will exit.

上网查了半天也没找到,后来看了一下sbt文件夹下的sbt-launch-lib.bash,发现里面默认使用2048m启动java,本地32位系统,启动不了2048m内存的java,改为1024m再执行就可以了。
报错还在继续........


报错:

正克隆到 '/home/yangyong/.sbt/staging/90b1b0889ba1299e38f2'...
[error] Nonzero exit code (128): git clone git://github.com/ijuma/junit_xml_listener.git /home/yangyong/.sbt/staging/90b1b0889ba1299e38f2
[error] Use 'last' for the full log.

解决 :

git config --global url."https://".insteadOf git://


报了一大堆连不上的错啊。估计跟公司的代理设置有关,将地址放到firefox上可以打开,命令行里就报错。直接下了个07的版本。


0.7 的测试结果不理想啊,小表还可以,三个大表关联跑了2个多小时直接溢出了,之前在hive上测试只用了不到700秒,看来还是内存太小了。

测试进行中:

不是0.7的问题,重装了0.8也是一样跑得很慢,12和13两台slave的cpu和磁盘都没动静,后来发现shark的master没配置,所以shark只是自己启动了一个spark,没用集群,配置好了以后发现连不上master,将spark从0.9换回0.8后发现0.8的work又启动不了,总是报绑定hadoop11的0端口失败,后来发现是配置了local_ip,程序复制到12和13时这一项也在,去掉后就好了,没必要配置这个。

再次测试select count(*) t_contract_master发现只用了26秒,再次执行19秒,过了一会执行3秒,select count(*) from t_contract_product用了6秒,不知道是按什么规则缓存的。确实是快了很多啊。

表关联的速度还是一般,跟hive相差不大,仍在测试 。


 类似资料: