#!/usr/bin/env python
#-*- coding: UTF-8 -*-
import os,sys
reload(sys)
sys.setdefaultencoding('utf8')
import getopt
import smtplib
from email.MIMEText import MIMEText
from email.MIMEMultipart import MIMEMultipart
from subprocess import *
def sendqqmail(username,password,mailfrom,mailto,subject,content):
gserver = 'smtp.qq.com'
gport = 25
try:
msg = MIMEText(unicode(content).encode('utf-8'))
msg['from'] = mailfrom
msg['to'] = mailto
msg['Reply-To'] = mailfrom
msg['Subject'] = subject
smtp = smtplib.SMTP(gserver, gport)
smtp.set_debuglevel(0)
smtp.ehlo()
smtp.login(username,password)
smtp.sendmail(mailfrom, mailto, msg.as_string())
smtp.close()
except Exception,err:
print "Send mail failed. Error: %s" % err
def main():
to=sys.argv[1]
subject=sys.argv[2]
content=sys.argv[3]
##定义QQ邮箱的账号和密码,你需要修改成你自己的账号和密码(请不要把真实的用户名和密码放到网上公开,否则你会死的很惨)
sendqqmail('1234567@qq.com','aaaaaaaaaa','1234567@qq.com',to,subject,content)
if __name__ == "__main__":
main() //这里填写邮箱地址和密码
其中需要关心的地方有:
gserver 定义发邮件的服务器域名,可以是smtp.163.com或者是smtp.qq.com
log=$1 //作为参数,当发邮件时,需要找到一个跟监控项目对应的日志,比如$addr\_load 或者$addr\_502
t_s=`date +%s` //定义时间戳
t_s2=`date -d "2 hours ago" +%s` //2小时前的时间戳
if [ ! -f /tmp/$log ] //$log其实就是ip_监控项目,把它作为日志的名字
then
echo $t_s2 > /tmp/$log //生成日志,里面第一行就是2小时的时间戳
fi
t_s2=`tail -1 /tmp/$log|awk '{print $1}'` //截取时间戳
echo $t_s >> /tmp/$log
v=$[$t_s-$t_s2] //2个时间的比值的时间差,上次时间与这次时间的对比
echo $v
if [ $v -gt 3600 ]
then
./mail.py $1 $2 $3
echo "0" > /tmp/$log.txt //监控项目的计数器,当出现一次告警就记一个数,一个周期内,比如10min
else
if [ ! -f /tmp/$log.txt ]
then
echo "0" > /tmp/$log.txt
fi
nu=`cat /tmp/$log.txt` //查看计数器中的数字
nu2=$[$nu+1]
echo $nu2 > /tmp/$log.txt
if [ $nu2 -gt 10 ]
then
./mail.py "trouble continue 10 min $1 $2 " "$3"
echo "0" > /tmp/$log.txt //当告警结束后又重新计数。
fi
fi
它的作用在于做告警收敛的。当服务出现问题时,发送邮件,一定时间内还是没有恢复的话,就再发一封邮件。就不用每1分钟发一封邮件了。
当服务异常的时候才会调用mail.sh,如果服务一小时内未告警,那么时间戳就会 大于3600秒,每次执行一下这个脚本都会记录一个时间戳到日志中去,上次告警与这次告警相差多少就是通过时间戳比值去计算的。如果比值大于3600秒,就直接告警(调用mail.py)