第六课 ceph基础学习-Ceph的管理监控和故障排查
第一节 dashboard安装和使用
yum isntall ceph-mgr-dashboard
# 启动dashboard
ceph mgr module enable dashboard
ceph mgr module enable dashboard --force
# 看下启动状态
ceph mgr module ls |less
# 使用内部认证证书
ceph dashboard create-self-signed-cert
# 主机名和端口配置
ceph config set mgr mgr/dashboard/server_addr 192.168.44.139
ceph config set mgr mgr/dashboard/server_port 8080
ceph config set mgr mgr/dashboard/ssl_server_port 8443
# 查看配置
ceph config ls
ceph config ls mgr/dashboard/server addr
# 查看服务
ceph mgr services
# 启动用户设置角色
ceph dashboard ac-user-create cephadmin cephpassword administrator
# 登陆一下
192.168.44.139:8443
第二节 Manager插件的介绍
- ceph manager daemon
- Dashboard module 面板
- Alerts module告警
- zabbix module集成zabbix
- Prometheus module 集成Prometheus
- Influx module采集数据到influx
- iostat module想iostat命令一样监控
- Crash module 上报crush dump可以分析
- Insights module 巡检健康报告和crush报告
# 启动模块zabbix
ceph mgr module enable zabbix
# 启动模块zabbix
ceph mgr module enable zabbix
# zabbix采集配置查看 根据官网进行配置
ceph zabbix config-show
第三节 Prometheus模块监控
- ceph的promethues模块开启
ceph mgr module enable prometheus
# 查看模块启动
ceph mgr module ls |less
# 默认打开9283的监听端口 页面打开后可以看到一系列指标
netstat -ntlp | grep 9283
- promethues和granfa安装。配置模板展示就好了。
第四节 SDK开发借鉴
- Ceph Storage Cluster下的API存储级别的API:https://docs.ceph.com/en/quincy/rados/api/
- Ceph RDB API: https://docs.ceph.com/en/quincy/rbd/api/librbdpy/#module-rbd
- S3对象存储的API: https://docs.ceph.com/en/quincy/radosgw/s3/
- swift相关API: https://docs.ceph.com/en/quincy/radosgw/swift/
第五节 常见故障分析
- 时钟偏移告警。
ceph -s
# clock skew detected on mon.node-2, mon. node-3
ceph health detail
# 查看配置超过多少秒报出警告
ceph --admin-daemon /var/run/ceph/ceph-mon.node-1.asok config show |grep clock
# 修改时间
systemctl stop ntpd
ntpdate 自己服务器ip
hwclock -w # 写到硬时钟里 重启不变
systemctl start ntpd
- 服务crash归档排查归档
ceph -s
# Long heartbeat ping times on back interface seen,longest is 9463.023 msec
#Long heartbeat ping times on front interface seen,longest is 9449.712
# msec3 daemons have recently crashed
ceph health detail # 详细告警
# 查看详细告警中的时间的日志 用vim / 过滤
vim /var/log/ceph/ceph-client.rgw.node-1.log
# 虽然现在服务正常 告警还是存在
ceph -h | grep crash
ceph crash ls
ceph crash info + crash的id
# 删除或归档crash信息
ceph crash archive + crash的id
ceph crash rm + crash的id
# 全部打包
ceph crash archive-all
- mon空间不足排障
ceph -s
# mons node-1,node-2 are low on available space
ceph health detail
# 查看告警配置 达到多少开始报警
ceph daemon mon.node-1 config show |grep mon |grep data
# 扩展磁盘解决
- ceph集群阻塞排查
ceph -s # 一直卡住
# 查看日志 搜索error
tail -f /var/log/ceph/ceph-mon.node-1.log