当前位置: 首页 > 工具软件 > SLURM > 使用案例 >

【Slurm】Slurm使用故障&workaround记录

许明朗
2023-12-01

1. Node状态Drain,Reason显示low socket-core-thread-cpu count

什么原因导致的还不清楚。后续研究下复现方法
重置状态方法如下:

# scontrol update NodeName=(你的NodeName) State=RESUME

state直接重置为IDLE也行。看网络文章区别在于,如果有job在该node上运行,建议用RESUME;如果没有job运行可以用IDLE

2. The host (**)is not a valid controller

检查slurm.conf内ControlMachine的名称是否正确。

3. 编译缺少HD5Open

在ubuntu下编译时候,发现缺少hdf5相关库。查询资料安装hdf5相关包后错误依然存在。
于是编译时候打算跳过hdf5

# ./configure --enable-debug --with-munge --with-hdf5=no

4. 恢复处于down状态的node

机器或者集群重启或者恢复后,有时候node会处于down状态

(base) root@yc:~# sinfo
PARTITION  AVAIL  TIMELIMIT  NODES  STATE NODELIST
test    up   infinite      1   down yc

使用scontrol命令可以恢复节点

scontrol update NodeName=yc State=RESUME

再次检查node状态,显示已经恢复成idle

 类似资料: