什么原因导致的还不清楚。后续研究下复现方法
重置状态方法如下:
# scontrol update NodeName=(你的NodeName) State=RESUME
state直接重置为IDLE也行。看网络文章区别在于,如果有job在该node上运行,建议用RESUME;如果没有job运行可以用IDLE
检查slurm.conf内ControlMachine的名称是否正确。
在ubuntu下编译时候,发现缺少hdf5相关库。查询资料安装hdf5相关包后错误依然存在。
于是编译时候打算跳过hdf5
# ./configure --enable-debug --with-munge --with-hdf5=no
机器或者集群重启或者恢复后,有时候node会处于down状态
(base) root@yc:~# sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
test up infinite 1 down yc
使用scontrol命令可以恢复节点
scontrol update NodeName=yc State=RESUME
再次检查node状态,显示已经恢复成idle