当前位置: 首页 > 工具软件 > down2local > 使用案例 >

服务器state显示down,作业提交后一直等待,所有节点不知为什么都成 停机 状态(state = down) - 计算模拟 - 小木虫 - 学术 科研 互动社区...

盖翰池
2023-12-01

如果你使用的是Troque的话,那么使用root账户到管理节点运行:

qterm -t quick

pbs_server(如果这个命令不能用的话,那么就找到这个命令的位置,我的是/usr/local/software/torque-2.4.6/sbin,在你安装的torque下面。)

然后稍等再次运行pbsnodes看看问题解决没有。

如果不能解决问题,那么ssh到任何一个显示down的节点上运行:

ps -A|grep pbs

看一下有没有pbs的进程在运行

4969 ?        00:00:38 pbs_mom

如果返回如上的结果,表明计算节点是正常的。如果没有的话,那么用root在每一个计算节点上将pbs_mom启动起来:

pbs_mom

命令位置在各个计算节点的/usr/local/software/torque-2.4.6/sbin目录下

顺便检查一下是否将pbs_mom设置为开机自动启动(我怀疑很可能是你配置好了,没有做这个设置,然后重新启动过机器,计算节点的这个进程没有启动起来)

我的这个开机启动是做到了/etc/init.d/after.local文件里面,在里面添加一句

/usr/local/software/torque-2.4.6/sbin/pbs_mom

就能达到以后开机自动启动pbs_mom的目的。如果上面目录下面找不到after.local文件,那么就用root自己创建一个。并且修改文件的权限:

chmod 755 /etc/init.d/after.local

注意:以上的所有操作都是root权限的操作。

估计做完上面的操作,就能解决你的问题。如果还有问题,那么建议从头检查你对PBS的配置情况,

 类似资料: