shell -5 告警系统邮件

狄凯
2023-12-01

告警系统邮件引擎

  • 邮件需要一个mail.py,写入(/usr/local/sbin/shares/mail/mail/py)以下内容
#!/usr/bin/env python
#-*- coding: UTF-8 -*-
import os,sys
reload(sys)
sys.setdefaultencoding('utf8')
import getopt
import smtplib
from email.MIMEText import MIMEText
from email.MIMEMultipart import MIMEMultipart
from  subprocess import *
def sendqqmail(username,password,mailfrom,mailto,subject,content):
    gserver = 'smtp.qq.com'
    gport = 25
    try:
        msg = MIMEText(unicode(content).encode('utf-8'))
        msg['from'] = mailfrom
        msg['to'] = mailto
        msg['Reply-To'] = mailfrom
        msg['Subject'] = subject
        smtp = smtplib.SMTP(gserver, gport)
        smtp.set_debuglevel(0)
        smtp.ehlo()
        smtp.login(username,password)
        smtp.sendmail(mailfrom, mailto, msg.as_string())
        smtp.close()
    except Exception,err:
        print "Send mail failed. Error: %s" % err
def main():
    to=sys.argv[1]
    subject=sys.argv[2]
    content=sys.argv[3]
##定义QQ邮箱的账号和密码,你需要修改成你自己的账号和密码(请不要把真实的用户名和密码放到网上公开,否则你会死的很惨)
    sendqqmail('1234567@qq.com','aaaaaaaaaa','1234567@qq.com',to,subject,content)
if __name__ == "__main__":
    main()   //这里填写邮箱地址和密码

其中需要关心的地方有:

gserver 定义发邮件的服务器域名,可以是smtp.163.com或者是smtp.qq.com

最重要的mail.sh,创建mail.sh并写入以下内容

log=$1  //作为参数,当发邮件时,需要找到一个跟监控项目对应的日志,比如$addr\_load 或者$addr\_502
t_s=`date +%s`   //定义时间戳
t_s2=`date -d "2 hours ago" +%s` //2小时前的时间戳
if [ ! -f /tmp/$log ] //$log其实就是ip_监控项目,把它作为日志的名字
then
    echo $t_s2 > /tmp/$log //生成日志,里面第一行就是2小时的时间戳
fi
t_s2=`tail -1 /tmp/$log|awk '{print $1}'`  //截取时间戳
echo $t_s >> /tmp/$log
v=$[$t_s-$t_s2]  //2个时间的比值的时间差,上次时间与这次时间的对比
echo $v
if [ $v -gt 3600 ]
then
    ./mail.py $1 $2 $3
    echo "0" > /tmp/$log.txt  //监控项目的计数器,当出现一次告警就记一个数,一个周期内,比如10min
else
    if [ ! -f /tmp/$log.txt ]
    then
        echo "0" > /tmp/$log.txt 
    fi
    nu=`cat /tmp/$log.txt`   //查看计数器中的数字
    nu2=$[$nu+1]   
    echo $nu2 > /tmp/$log.txt
    if [ $nu2 -gt 10 ]
    then
        ./mail.py "trouble continue 10 min $1  $2 " "$3"
         echo "0" > /tmp/$log.txt  //当告警结束后又重新计数。
    fi  
fi

它的作用在于做告警收敛的。当服务出现问题时,发送邮件,一定时间内还是没有恢复的话,就再发一封邮件。就不用每1分钟发一封邮件了。

当服务异常的时候才会调用mail.sh,如果服务一小时内未告警,那么时间戳就会 大于3600秒,每次执行一下这个脚本都会记录一个时间戳到日志中去,上次告警与这次告警相差多少就是通过时间戳比值去计算的。如果比值大于3600秒,就直接告警(调用mail.py)

 类似资料: