首先,在每个实例上的安全组的入站和出站选项上要添加规则:允许所有流量
第一步:manager的配置
1、主机名和ip地址的配置
使用root权限
vim /etc/hosts 修改主机名和ip地址
按i进行编辑:
127.0.0.1 master.condor
172.31.21.101 master.condor
172.31....... slave1.condor
172........... slave2.condor
................ ...............
按以上编辑完后:wq!保存退出
使用ping+ip地址来测试是否能够在集群内成功通信。
2、condor的配置文件
vim /etc/condor/condor_config
按i进行编辑:
首先启用web服务:
在RELEASE_DIR的下一行加入:
WEB_ROOT_DIR = $RELEASE_DIR/web
ENABLE_SOAP = TRUE
ENABLE_WEB_SERVER = TRUE
然后加入:
ALLOW_WRITE = 172.31.21.101,..........,................,..............
ALLOW_READ = 172.31.21.101, ....... ................. ................
这个地方要依次填上manager和slave的ip地址
然后修改condor_host的hostname,改为manager的ip地址。
然后修改deamon_list的内容
修改完wq!保存并退出。
condor_status看有几个节点配置成功
pstree|grep condor看本机器的进程
在一个manager机器上把condor和其他所有配置完成以后,创建一个AWS EC2 AMI(镜像文件)。然后后面的slave就复制这个AMI实例,然后再个别配置。
要处理稍微大型一点的任务,t2.micro型的实例肯定是跑不动的,起码要t2.medium(2CPU,4G内存),EBS存储的话最好在30GB以上(参照装一个Caffe和MKL的话就已经使用20G左右的空间)。