如果你使用的是Troque的话,那么使用root账户到管理节点运行:
qterm -t quick
pbs_server(如果这个命令不能用的话,那么就找到这个命令的位置,我的是/usr/local/software/torque-2.4.6/sbin,在你安装的torque下面。)
然后稍等再次运行pbsnodes看看问题解决没有。
如果不能解决问题,那么ssh到任何一个显示down的节点上运行:
ps -A|grep pbs
看一下有没有pbs的进程在运行
4969 ? 00:00:38 pbs_mom
如果返回如上的结果,表明计算节点是正常的。如果没有的话,那么用root在每一个计算节点上将pbs_mom启动起来:
pbs_mom
命令位置在各个计算节点的/usr/local/software/torque-2.4.6/sbin目录下
顺便检查一下是否将pbs_mom设置为开机自动启动(我怀疑很可能是你配置好了,没有做这个设置,然后重新启动过机器,计算节点的这个进程没有启动起来)
我的这个开机启动是做到了/etc/init.d/after.local文件里面,在里面添加一句
/usr/local/software/torque-2.4.6/sbin/pbs_mom
就能达到以后开机自动启动pbs_mom的目的。如果上面目录下面找不到after.local文件,那么就用root自己创建一个。并且修改文件的权限:
chmod 755 /etc/init.d/after.local
注意:以上的所有操作都是root权限的操作。
估计做完上面的操作,就能解决你的问题。如果还有问题,那么建议从头检查你对PBS的配置情况,