今天做的第一件事是安装单机的Greenplum。装的时候才晓得,这是基于POSQL开发的一款云数据库,基于我粗浅的理解,认为是PGSQL的分布式解决方案。
下载它是一件痛苦的事,因为根本找不到安装包,在全网都找不见。好在抱着试一试的心理上Github逛了逛,果然有人给出了办法。下面是引用:
安装
[root@localhost root]# git clone https://gitee.com/inrgihc/greenplum_singlenode.git
[root@localhost root]# cd greenplum_onlyone/
[root@localhost root]# make clean && make build
[root@localhost root]# sh greenplum6-centos7-singlenode_v1.0.bin -i
卸载
[root@localhost root]# sh greenplum6-centos7-singlenode_v1.0.bin -e
登陆
[root@localhost ~]# psql -h 127.0.0.1 -p 5432 -U gpadmin -d postgres
psql (9.4.24)
Type "help" for help.
postgres=#
各登陆信息的含义
-d,指定要连接的数据库,基本每次登录GreenPlum数据库都需要使用这个参数。
-l,列出可用的所有数据库,如果忘记了要登录数据库的名字,可以使用这个参数查看。
-h,指定要连接的数据库服务器的IP地址,默认是本机(localhost)。
-p,指定数据库的端口号,默认是5432.
-U,连接数据库的用户名,默认是gpadmin。
第二件事是部署基于MySQL5.1的数据仓库Infobright。同样的,它的安装包也极难找,除了在CSDN花积分下载资源外,似乎没有第二种办法。不过好在,最后在茫茫网络中检索到了一个极为隐蔽的度盘链接给下载了下来。
https://pan.baidu.com/s/1b0mMx4
安装
https://cloud.tencent.com/developer/article/1533743
最后做的一件事是在原有的Hadoop环境上搭建一个Hive环境,都是单机版。本来是很简单的事,只要将hive解压到同一台服务器上,改下参数即可。然后,悲催的是,我发现服务器内存快满了。单机版的hive和单机版的Hadoop断不能放在同一台机器上。
在网上检索很久也并没有找到可以将其分离的办法。遂只有在新的服务器上再部署一次Hadoop,可是Hadoop有好几个配置文件要写,我又嫌麻烦,于是灵机一动,将原本的Hadoop安装目录整个打包发送到了新的服务器上。修改core-site.xml文件里HDFS的IP地址为本机,再启动namenode、datanode、yarn,途中没有遇到任何问题。
跳过了初始化HDFS文件系统的步骤,HDFS、web管理系统、作业管理系统皆可正常访问。有时候简单粗暴反而最有效。