当前位置: 首页 > 工具软件 > Grid Engine > 使用案例 >

安装kaldi-GridEngine

周泰
2023-12-01

安装环境

ubuntu14.04

在master节点安装 GridEngine

最好不要用源码安装,会非常痛苦

sudo apt-get install gridengine-master gridengine-client

当出现自动配置时选择yes
当出现需要输入cell name 时,可以选择default
当需要输入name of the master时,要输入选择的master host name,如果输错了最好的方法就是运行apt-remove -P这些包,并重新安装。

为了方便管理可以将自己加入管理员帐户

sudo qconf -am <your-user-id>

此处 am意思是 add manager
sm means show all managers

在普通节点安装GridEngine

sudo apt-get install gridengine-client gridengine-exec

cell name 接受为default
master 应该设置为与以上设置的相同

如果master节点也是工作节点也可以在master节点安装以上步骤

查看安装是否正常

输入 qstat,qhost -q 可以查看安装是否正常
结果类似如下:

到此还没有结束,还需要配置环境。
如果想要改变GridEngine的name of the master时需要修改如下文件:

/var/lib/gridengine/default/common/act_qmaster

配置GridEngine

首先定义queue,GridEngine默认没有定义任何queue。
下面配置一个all.
设置EDITOR环境变量,例如vim 或者 emacs
运行如下命令:

qconf -aq

会打开一个编辑器,编辑行

qname               all.q

修改此queue的命令如下,稍后会使用

qconf -mq all.q

GridEngine 中包含了很多全局的全局的配置,通过如下命令能够查看

qconf -sconf

可以编辑全局变量通过如下命令

qconf -mconf

如果配置了email项会展示如下:

并增加如下配置,可以提高job提交的速度

flush_time=00:00:10

此选项的默认配置是

00:00:15

配置GridEngine resource

GridEngine中有resources的概念,resources可以被任务请求和利用
查看resources的方法

qconf -sc

修改资源的命令

qconf -mc

修改mem_free参数0 -> 1G
i.e.

并加入以下两行

稍后当增加hosts 时可以通过如下命令来修改参数

qconf -me <some-hostname>,然后编辑complex_values 如下
complex_values        ram_free=112G,gpu=2

这是一台机器有112G内存和2个GPU

大多数管理员会配置并行环境变量smp,会保留一部分cpu槽
过程如下:

执行:qconf -ap smp
并编辑slots为999
执行qconf -mq all.q
编辑pe_list 添加smp
效果如下:
pe_list    make smp

添加GridEngine节点

首先在新节点运行一下命令:

sudo apt-get install gridengine-client gridengine-exec

安装好并不是意味着已经添加了节点,GridEngine将主机分为管理主机,执行主机和提交主机,可以通过以下命令分别查看三种注意的列表

qconf -sh
qconf -sel
qconf -ss

可以通过如下命令来讲如下节点设置为管理主机,提交主机及执行主机

qconf -ah <新节点的主机名>
qconf -as <新节点的主机名>
qconf -ae <新节点的主机名> ;;此命令会打开编辑器,可以编辑raw_free和 GPU项添加进去,如下:

complex_values    ram_free=112G,gpu=1

查看,添加和修改某一个执行节点的详细信息,执行命令如下:

qconf -se <节点的主机名>
qconf -ae <节点的主机名>
qconf -me <节点的主机名>

仅仅添加主机是不够的还需要告诉队列这个节点可以分配多少个任务槽
首先告诉队列多少个cpu可以利用

qconf -mq all.q

编辑文件如下:

查看所有主机列表

qhost -q

BIP位置显示为E时表明任务执行失败了
a表示警告,u表示无法获取状态,d表示被禁用
E时可以通过以下命令清楚错误标志

qmod -c all.q@a01

或者通过如下命令禁用某一节点

qmod -d all.q@a01

用以下命令来恢复

qmod -e all.q@a01

任务一直没有被执行 可以通过

qstat

查看任务的标志,然后通过

qstat -j <任务标志>

查看任务没有被执行的具体原因

查看所有用户的任务

qstat -u '*'
 类似资料: