1、prometheus 存储的是时序数据,适合监控一些随时间变化的场景
2、原理:通过HTTP协议周期性抓取(Pull方式)被监控组件的状态,好处是任意组件只要提供HTTP接口就可以接入监控系统,不需要任何SDK或者其他的集成过程。这样做非常适合虚拟化环境,比如VM或者Docker。输出被监控组件信息的Http接口叫exporter。
3、特点
Prometheus Server 负载定时在目标上抓取 metrics(指标)数据,每个抓取目标都需要暴露一个 HTTP 服务接口用于 Prometheus 定时抓取。这种调用被监控对象获取监控数据的方式被称为 Pull(拉)。Pull 方式体现了 Prometheus 独特的设计哲学与大多数采用 Push(推)方式的监控不同
Pull 方式的优势是能够自动进行上游监控和水平监控,配置更少,更容易扩展,更灵活,更容易实现高可用。简单来说就是 Pull 方式可以降低耦合。由于在推送系统中很容易出现因为向监控系统推送数据失败而导致被监控系统瘫痪的问题。所以通过 Pull 方式,被采集端无需感知监控系统的存在,完全独立于监控系统之外,这样数据的采集完全由监控系统控制
4、时序(time series)是由名字(Metric)以及一组key/value标签定义的,具有相同的名字以及标签属于相同时序
5、metric名字:表示metric的功能,如 http_request_total
1、数据格式:<metric name>{<label name>=<label value>, ...}
2、实例
up{job="<job-name>", instance="<instance-id>"}: 1 表示该实例正常工作
up{job="<job-name>", instance="<instance-id>"}: 0 表示该实例故障
1、Counter
Counter用于累计值,例如记录请求次数、任务完成数、错误发生次数。一直增加,不会减少。重启进程后,会被重置。
http_response_total{method=”GET”,endpoint=”/api/tracks”} 100
2、Gauge
Gauge 瞬时数据,比如内存使用率、CPU使用率等。
3、Histogram
<basename>_bucket{le="<upper inclusive bound>"}
<basename>_bucket{le="+Inf"}
<basename>_sum
<basename>_count
Histogram(直方图)可以理解为柱状图的意思,常用于跟踪事件发生的规模,例如:请求耗时、响应大小。它特别之处是可以对记录的内容进行分组,提供count和sum全部值的功能。
4、Summary
<basename>{quantile="<φ>"}
<basename>_sum
<basename>_count
Summary和Histogram十分相似,常用于跟踪事件发生的规模,例如:请求耗时、响应大小。同样提供 count 和 sum 全部值的功能。
count=7次,sum=7次的值求值。
它提供一个quantiles的功能,可以按%比划分跟踪的结果。例如:quantile取值0.95,表示取采样值里面的95%数据。
做查询 与 报警
参考:https://baijiahao.baidu.com/s?id=1689945188583938997&wfr=spider&for=pc
1、Prometheus Server:Prometheus 的核心部分,负责实现对监控数据的获取,存储以及查询;
静态或动态的配置管理监控目标;
本身具有时序数据库的功能;
对外提供自定义的 PromQL 语言,可以查询分析;
内置 Express Browser UI, 可以通过该 UI 用 PromQL 实现数据的查询以及可视化
2、push gateway:接收由 Client push 过来的指标数据,在指定的时间间隔,由主程序来抓取;
Prometheus Server 与 Exporter 无法直接通信时,可以利用 PushGateway 来进行中转。
3、Exporter:采集数据,并通过 HTTP 服务的形式暴露给 Prometheus Server;
例子:node_exporter、mysqld_exporter、haproxy_exporter 等。
4、Alertmanager:Prometheus 体系中的告警处理中心;
Prometheus Server 中支持基于 PromQL 创建告警规则,如果满足PromQL定义的规则,则会产生一条告警,而告警的后续处理流程则由 AlertManager 进行管理;
可以邮件、webhook 等方式预警。
参考:https://blog.csdn.net/baidu_36943075/article/details/91829364
wget https://studygolang.com/dl/golang/go1.10.3.linux-amd64.tar.gz #下载包
sudo tar -C /usr/local -xzf go1.10.3.linux-amd64.tar.gz #解压包
sudo vim /etc/profile #打开环境变量配置文件,写入如下内容(位置根据实际的存放位置为准)
export GO_HOME=/usr/local/go
export PATH=$GO_HOME/bin:$PATH
source /etc/profile # 重启环境变量
go version #查看版本号验证是否安装成功
cd /usr/software
wget https://github.com/prometheus/prometheus/releases/download/v2.26.0/prometheus-2.26.0.linux-amd64.tar.gz
tar -zxvf prometheus-2.26.0.linux-amd64.tar.gz -C /usr/local/
官网说明:https://prometheus.io/docs/prometheus/latest/configuration/configuration/
https://www.jianshu.com/p/b9d15f236e02
global:全局配置
alerting:Alertmanager相关配置
rule_files:规则文件列表,使用’evaluation_interval’ 参数抓取
scrape_configs:抓取配置列表
cd /usr/local/prometheus-2.26.0.linux-amd64
vim prometheus.yml
# my global config
global:
scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
# scrape_timeout is set to the global default (10s).
# Alertmanager configuration
alerting:
alertmanagers:
- static_configs:
- targets:
# - alertmanager:9093
# Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
rule_files:
# - "first_rules.yml"
# - "second_rules.yml"
# A scrape configuration containing exactly one endpoint to scrape:
# Here it's Prometheus itself.
scrape_configs:
# The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.
- job_name: 'prometheus'
# metrics_path defaults to '/metrics'
# scheme defaults to 'http'.
static_configs:
- targets: ['localhost:9090']
1、启动
注意:prometheus 没有自带任何加密措施,因此尽量不要暴露所使用的端口,通过 grafana去查看监测数据,实在要用 prometheus 的UI 的话,可以做 Nginx 加密;
# 后台启动,并修改开放端口
nohup ./prometheus --config.file=prometheus.yml --web.enable-lifecycle --web.listen-address=:19908 &
# 查看启动状态
ps -ef | grep prometheus
lsof -i:19908
# 查看启动的命令行参数
./prometheus -h
2、常用启动参数
# 启动使用的配置文件
--config.file=prometheus.yml
# 是否启用 API,启用API后,可以通过 API指令完成 Prometheus 的 停止、热加载配置文件 等
--web.enable-lifecycle
# 服务监听端口
--web.listen-address=:19908
# 是否启用 admin api 的访问权限(TSDB管理API)
--web.enable-admin-api
# 保留数据的天数
--storage.tsdb.retention.time=7d
3、API
# 查看当前配置
curl http://localhost:9090/api/v1/status/config
# 使修改后的配置生效
curl -XPOST http://localhost:19908/-/reload
4、强行关闭 Prometheus
lsof -i:19908
kill -9 pid
官网:https://grafana.com/grafana/download
配置文件说明:https://blog.csdn.net/liumiaocn/article/details/104027047
Dashboards :https://grafana.com/grafana/dashboards
wget https://dl.grafana.com/oss/release/grafana-7.5.3-1.x86_64.rpm
sudo yum install grafana-7.5.3-1.x86_64.rpm
yum clean all
vim /etc/grafana/grafana.ini
# 编辑
http_port = 13818
# 保存
systemctl enable grafana-server
systemctl start grafana-server
访问 ip:13818
访问 ip:3000,初始用户名和密码都是 admin,修改新密码后进入
1、点击 Configuration -> Add data source
2、选择 Prometheus
3、Dashboards 选择 Prometheus 2.0 Stats ,Import
4、Settings 写入 Prometheus 的 IP 和 端口,我这里写为 http://localhost:19908
5、点击 Save & Test
6、进入 Dashboards,选择 prometheus-2-0-stats,即可看到监控数据
网址:https://grafana.com/grafana/
服务器推荐:https://grafana.com/grafana/dashboards/8919
Docker 推荐:https://grafana.com/grafana/dashboards/8321
exporter 案例:https://prometheus.io/docs/instrumenting/exporters/
参考: https://www.jianshu.com/p/7bec152d1a1f
1、被监控服务器 同步时间
yum install ntpdate -y
ntpdate ntp5.aliyun.com
date # 或 timedatectl
2、在被监控的机器下载与安装 node_exporter
查看最新 Release:
https://github.com/prometheus/node_exporter/
cd /usr/software
wget https://github.com/prometheus/node_exporter/releases/download/v1.1.2/node_exporter-1.1.2.linux-amd64.tar.gz
tar -zxvf node_exporter-1.1.2.linux-amd64.tar.gz -C /usr/local/
3、启动 node_exporter
命令启动 (不推荐):
cd /usr/local/node_exporter-1.1.2.linux-amd64
nohup ./node_exporter --web.listen-address=:19918 &
启动参数:
#node_exporter监听的端口,默认是9100,若需要修改则通过此参数。
--web.listen-address=":19918"
#获取metric信息的url,默认是/metrics,若需要修改则通过此参数
--web.telemetry-path="/metrics"
#设置日志级别
--log.level="info"
#设置打印日志的格式,若有自动化日志提取工具可以使用这个参数规范日志打印的格式
--log.format="logger:stderr"
做成系统服务并启动 (优秀教程:https://blog.csdn.net/yuesichiu/article/details/51485147)
# centos 7.9
cat > /usr/lib/systemd/system/node_exporter.service << EOF
[Unit]
Description=node_exporter
Documentation=https://prometheus.io/
After=network.target
[Service]
Type=simple
ExecStart=/usr/local/node_exporter-1.1.2.linux-amd64/node_exporter --web.listen-address=:19918
Restart=on-failure
[Install]
WantedBy=multi-user.target
EOF
chmod 754 /usr/lib/systemd/system/node_exporter.service
systemctl daemon-reload && systemctl enable node_exporter.service && systemctl start node_exporter.service
systemctl daemon-reload && systemctl restart node_exporter.service && systemctl status node_exporter
systemctl status node_exporter
# ubuntu 14.04
cd /usr/local/node_exporter-1.1.2.linux-amd64
nohup ./node_exporter --web.listen-address=:19918 &
# ubuntu 18.04
su # 进入 root
cat > /etc/systemd/system/node_exporter.service << EOF
[Unit]
Description=node_exporter
Documentation=https://prometheus.io/
After=network.target
[Service]
Type=simple
ExecStart=/usr/local/node_exporter-1.1.2.linux-amd64/node_exporter --web.listen-address=:19918
Restart=on-failure
[Install]
WantedBy=multi-user.target
EOF
chmod 754 /etc/systemd/system/node_exporter.service
systemctl daemon-reload && systemctl enable node_exporter.service && systemctl start node_exporter.service
systemctl daemon-reload && systemctl restart node_exporter.service && systemctl status node_exporter
systemctl status node_exporter
查看监控指标:
curl http://localhost:19918/metrics;
# 简单的指标说明:
node_boot_time: 系统启动时间
node_cpu: 系统CUP使用情况
node_disk_*: 磁盘io
node_filesystem_*: 文件系统使用量
node_load1: 系统负载
node_memory_*: 系统内存使用量
node_network_*: 网络宽带
node_time: 当前系统时间
go_*: node exporter中go相关指标
*process_ :**node exporter自身进程相关指标
5、prometheus 的配置文件添加监控项
Centos机器 29 台:
172、173、174、175、176、177、178、179、180、181、182、183、184、185、
186、·187、188、189、190、197、198
89、91、93、94
下载的四台
Ubuntu机器 13 台:
164、165、166、168、169、170、171
85、86、87、88、90、92
cd /usr/local/prometheus-2.26.0.linux-amd64
vim prometheus.yml
- job_name: 'server_91'
crape_interval: 8s
static_configs:
- targets: ['192.168.10.106:19918']
labels:
instance: Prometheus
# 保存
# 热重启 Prometheus
curl -XPOST http://localhost:19908/-/reload
6、导入 dashboard
Dashboards -> Manage -> Import -> mport via grafana.com -> 输入8919 -> 点击 load
参考:https://www.cnblogs.com/xiangsikai/p/11289675.html
1、在被监控的mysql所在的服务器安装 mysql_export
cd /usr/software
wget https://github.com/prometheus/mysqld_exporter/releases/download/v0.12.1/mysqld_exporter-0.12.1.linux-amd64.tar.gz
tar -zxvf mysqld_exporter-0.12.1.linux-amd64.tar.gz -C /usr/local/
2、配置 被监控机器的 mysql
mysql -u root -p
CREATE USER 'mysql_exporter'@'localhost' IDENTIFIED BY 'XXXXXXXX';
GRANT PROCESS, REPLICATION CLIENT, SELECT ON *.* TO 'mysql_exporter'@'localhost';
cd /usr/local/mysqld_exporter-0.12.1.linux-amd64
vim .my.cnf
[client]
user=mysql_exporter
password=123456
3 、启动 mysql_export
命令启动(不推荐)
cd /usr/local/mysqld_exporter-0.12.1.linux-amd64
# 如需修改端口,可加参数 --web.listen-address=:9104(默认是9104)
nohup ./mysqld_exporter --config.my-cnf=.my.cnf &
curl http://localhost:9104/metrics
做成系统服务启动
# centos 7.9
cat > /usr/lib/systemd/system/mysqld_exporter.service << EOF
[Unit]
Description=mysqld_exporter
After=network.target
[Service]
Type=simple
ExecStart=/usr/local/node_exporter-1.1.2.linux-amd64/node_exporter --config.my-cnf /usr/local/mysqld_exporter-0.12.1.linux-amd64/.my.cnf
Restart=on-failure
[Install]
WantedBy=multi-user.target
EOF
chmod 754 /usr/lib/systemd/system/mysqld_exporter.service
systemctl daemon-reload && systemctl enable mysqld_exporter.service && systemctl start mysqld_exporter.service && systemctl status mysqld_exporter
systemctl daemon-reload && systemctl restart mysqld_exporter.service && systemctl status mysqld_exporter
systemctl status mysqld_exporter
4、配置 Prometheus 配置文件,并热重启
- job_name: 'mysql'
static_configs:
- targets: ['xxx.xxx.xx.164:9104','xxx.xxx.xx.165:9104','xxx.xxx.xx.166:9104']
curl -XPOST http://localhost:19908/-/reload
5、在 Grafana 中 添加 dashboard
Dashboards -> Manage -> Import -> mport via grafana.com -> 输入7362-> 点击 load
1、在要被监控的redis 所在的机器上下载与安装 redis_exporter
cd /usr/software/
wget https://github.com/oliver006/redis_exporter/releases/download/v1.20.0/redis_exporter-v1.20.0.linux-amd64.tar.gz
tar -zxvf redis_exporter-v1.20.0.linux-amd64.tar.gz -C /usr/local
2 、启动 redis_exporter
命令启动(不推荐)
cd /usr/local/redis_exporter-v1.20.0.linux-amd64
# 如需修改端口,可加参数 --web.listen-address=:9121(默认是9121)
nohup ./redis_exporter -redis.addr localhost:6379 -redis.password 123456 &
curl http://localhost:9121/metrics
做成系统服务启动
# centos 7.9
cat > /usr/lib/systemd/system/redis_exporter.service << EOF
[Unit]
Description=redis_exporter
After=network.target
[Service]
Type=simple
ExecStart=/usr/local/redis_exporter-v1.20.0.linux-amd64/redis_exporter -redis.addr=IP:6379 -redis.password=passwd
Restart=on-failure
[Install]
WantedBy=multi-user.target
EOF
chmod 754 /usr/lib/systemd/system/redis_exporter .service
systemctl daemon-reload && systemctl enable redis_exporter .service && systemctl start redis_exporter .service && systemctl status redis_exporter
systemctl daemon-reload && systemctl restart redis_exporter .service && systemctl status redis_exporter
systemctl status redis_exporter
4、配置 Prometheus 配置文件,并热重启
- job_name: redis_exporter
static_configs:
- targets: ['xxx.xxx.xx.85:9121','xxx.xxx.xx.86:9121']
curl -XPOST http://localhost:19908/-/reload
5、在 Grafana 中 添加 dashboard
Dashboards -> Manage -> Import -> mport via grafana.com -> 输入763-> 点击 load
https://grafana.com/dashboards/763/revisions
1、在被监控的kafka集群所在的任意一台服务器安装 kafka_exporter
cd /usr/software
wget https://github.com/danielqsj/kafka_exporter/releases/download/v1.2.0/kafka_exporter-1.2.0.linux-amd64.tar.gz
tar -zxvf kafka_exporter-1.2.0.linux-amd64.tar.gz -C /usr/local/
2、启动 kafka_exporter
命令启动(不推荐)
cd /usr/local/kafka_exporter-1.2.0.linux-amd64
# 如需修改端口,可加参数 --web.listen-address=:9308(默认是9308)
nohup ./kafka_exporter --kafka.server=localhost:9308 &
curl http://localhost:9308/metrics
做成系统服务启动
# centos 7.9
cat > /usr/lib/systemd/system/kafka_exporter.service << EOF
[Unit]
Description=kafka_exporter
Documentation=https://prometheus.io/
After=local-fs.target network-online.target network.target
Wants=local-fs.target network-online.target network.target
[Service]
Type=simple
ExecStart=/usr/local/node_exporter-1.1.2.linux-amd64/node_exporter --kafka.server=localhost:9096
Restart=on-failure
[Install]
WantedBy=multi-user.target
EOF
chmod 754 /usr/lib/systemd/system/kafka_exporter.service
systemctl daemon-reload && systemctl enable kafka_exporter.service && systemctl start kafka_exporter.service && systemctl status node_exporter
systemctl daemon-reload && systemctl restart kafka_exporter.service && systemctl status kafka_exporter
systemctl status node_exporter
3、配置 Prometheus 配置文件,并热重启
- job_name: 'kafka'
static_configs:
- targets: ['xxx.xxx.xx.170:9308']
curl -XPOST http://localhost:19908/-/reload
4、在 Grafana 中 添加 dashboard
7589、10466、11963
Dashboards -> Manage -> Import -> mport via grafana.com -> 输入7589-> 点击 load
参考:
https://it.baiked.com/nginx/2697.html
https://www.cnblogs.com/xiao987334176/p/11180652.html
promethues监控nginx可选两个exporter,通过nginx_exporter主要是获取nginx-status中的内建的指标,nginx自身提供status信息,较为简单,promethues中对应的metrics也较少,想要监控更多的指标可以通过nginx-vts-exporter采集信息,依赖在编译nginx的时候添加nginx-module-vts模块来实现。
nginx virtual host traffic status模块是nginx第三方模块之一,vts提供了访问虚拟主机状态的信息,包含server,upstream以及cache的当前状态,类似于NGINX Plus 提供的在线活动监控功能。
1、安装 nginx-exporter
docker pull fish/nginx-exporter
docker run -it fish/nginx-exporter
# 新开一个终端
docker ps|grep nginx-exporter
docker cp 容器ID:/usr/local/bin/nginx_exporter /opt/
# 执行成功则说明安装成功
/opt/nginx_exporter --help
# 退出容器
mkdir -p /etc/nginx_exporter/bin/
mv /opt/nginx_exporter /etc/nginx_exporter/bin/
2、配置 nginx
vi /etc/nginx/sites-enabled/status.conf
server {
listen 8011;
server_name localhost;
location /nginx_status {
stub_status on;
access_log off;
allow 127.0.0.1;
}
}
nginx -s reload
/etc/nginx/sites-enabled# curl 127.0.0.1:8011/nginx_status
3、封装为系统 service
vim /lib/systemd/system/nginx_exporter.service
[Unit]
Description=nginx monitor
After=network.target
[Service]
ExecStart=/etc/nginx_exporter/bin/nginx_exporter -nginx.scrape_uri="http://127.0.0.1:8011/nginx_status"
ExecStop=-/sbin/start-stop-daemon --quiet --stop --retry QUIT/5
TimeoutStopSec=5
KillMode=mixed
[Install]
WantedBy=multi-user.target
systemctl daemon-reload
systemctl enable nginx_exporter.service
systemctl start nginx_exporter.service
netstat -anpt|grep nginx_exporte
curl 127.0.0.1:9113/metrics
4、配置 Prometheus
cd /usr/local/prometheus-2.26.0.linux-amd64
vim prometheus.yml
- job_name: nginx_exporter
static_configs:
- targets: ['192.168.10.139:9113']
# prometheus 热重启
curl -XPOST http://localhost:19908/-/reload
http_requests_total
http_requests_total{code="200", handler="query"}
http_requests_total{code~="2xx"}
http_requests_total > 100
http_requests_total[5m]
count(http_requests_total)
sum(http_requests_total)
avg(http_requests_total)
topk(3, http_requests_total)
irate(http_requests_total[5m])
https://blog.csdn.net/ywd1992/article/details/85989259
prometheus 中文指南:https://yunlzheng.gitbook.io/prometheus-book/
Prometheus 官方文档:https://prometheus.io/docs/introduction/overview/
Grafana 官方文档:http://docs.grafana.org/
全面学习Prometheus:http://dockone.io/article/5716?tdsourcetag=s_pcqq_aiomsg
Prometheus 非官方中文手册:https://www.bookstack.cn/read/prometheus-manual/README.md
Prometheus 实战:https://songjiayang.gitbooks.io/prometheus/content/
prometheus-book:https://yunlzheng.gitbook.io/prometheus-book/
Grafana的一些实用技巧:https://segmentfault.com/a/1190000013565079