EXT4-fs error (device sdb4) ext4_find_entry:1436 inode #2 comm pvestatd reading directory lblock 0
系统不定期出现这个问题,一旦出现系统就挂起了。
目前没发现什么明显的规律,也没法人工再现。
简单g了一下,主要有两种说法,
一是内核bug,这个可能性不大,因为相同配置的服务器好几个,其他没问题;
二是硬盘数据线可能接触不良,这个可能性有,不过得去机房排查才知道。
除此之外,还可能存在什么别的原因么?
//bow~
-----------
刚做了一下fsck,也没有严重的问题。btw,这是个800GB的Intel SSD企业盘。
# fsck.ext4 -f /dev/sdb4
e2fsck 1.43.4 (31-Jan-2017)
Pass 1: Checking inodes, blocks, and sizes
Inode 47185925 extent tree (at level 2) could be narrower. Fix? yes
Inode 47185926 extent tree (at level 2) could be narrower. Fix? yes
Pass 1E: Optimizing extent trees
Pass 2: Checking directory structure
Pass 3: Checking directory connectivity
Pass 4: Checking reference counts
Pass 5: Checking group summary information
/dev/sdb4: ***** FILE SYSTEM WAS MODIFIED *****
/dev/sdb4: 18/47529984 files (0.0% non-contiguous), 20235838/190109905 blocks
---------------------
2/24追记:
事实表明上述fsck的修复并不妨碍故障再次发生。
每次故障发生的时间点
2/09 21:00 首次出现
2/14 03:00
2/15 14:00
2/20 19:00
2/24 17:00
每次故障发生的时间并非正点,而是在正点附近,在该时间点前,系统的负载并没有明显波动。
每次故障的时间间隔大约四五天,只有2/14和15例外。
---------------------
2/26追记:
周日去机房检查了一下硬件,怀疑该SSD SATA口松动,换到另一个板上SATA,有待观察……