umad_open_port failed for device mlx4_0 port 1
infiniband驱动出现未知因素导致部分服务不可启动。
开机失败:ib subnet manager failed
而且启动opensm服务---service opensmd start失败
# srp_daemon -e -o
umad_open_port failed for device mlx4_0 port 1
解决:
卸载infiniband驱动重新安装,并rm -r /lib/modules/2.6.18-308.el5/extra/mlnx-ofa_kernel -rf
卸载(重点关注mlnx)
/usr/sbin/ofed_uninstall.sh
或--执行安装包的uninstall.sh
# ./uninstall.sh
# rm -r /etc/infiniband -rf
重启机器,检查模块和进程
# reboot
# lsmod |grep ml
# ps -ef | grep ml
查看模块列表
# modprobe -l |grep ml
这时候发现仍然存在mlnx相关的信息
把mlnx-ofa_kernel文件夹删除
rm -r /lib/modules/2.6.18-308.el5/extra/mlnx-ofa_kernel -rf
重新安装infiniband驱动(安装步骤在下面的链接)
http://blog.csdn.net/debimeng/article/details/75271248