Heartbeat 项目是 Linux-HA 工程的一个组成部分,自1999年开始到现在,发布了众多版本,是目前开源Linux-HA项目最成功的一个例子,它实现了一个高可用集群系统。心跳服务和集群通信是高可用集群的两个关键组件,在 Heartbeat 项目里,由 heartbeat 模块实现了这两个功能:心跳监测部分和资源接管部分。
心跳监测可以通过网络链路和串口进行,而且支持冗 余链路,它们之间相互发送报文来告诉对方自己当前的状态,如果在指定的时间内未收到对方发送的报文,那么就认为对方失效,这时需启动资源接管模块来接管运 行在对方主机上的资源或者服务。
通过HeartBeat,可以将资源(IP以及程序服务等资源)从一台已经故障的计算机快速转移到另一台正常运转的机器上继续提供服务,一般称之为高可用的服务。在实际的生产应用场景中,heartbeat的功能和另一个高可用的开源软件keepalived有很多的相同之处,在我们实际的生产业务中也是有区别的。
通过修改Heartbeat的软件的配置文件,可以制定那一台Heartbeat服务器作为主服务器,则另一台将自动成为热备服务器。然后在热备服务器上配置Heartbeat
守护程序来监听来自主服务器的心跳消息。如果热备服务器在指定时间内为监听到来自主服务器的心跳,就会启动故障转义程序,并取得主服务器上的相关资源服务的所有权,接替主服务器继续不间断的提供服务,从而达到资源以及服务高可用的目的。
以上的描述heartbeat的主备模式,heartbeat还支持主主模式,即两台服务器互为主备,这是他们之间还会互相发送报文来告诉对方自己的当前的状态,如果在指定的时间内未收到对方发送的心跳报文,那么,一方就会认为对方失效或者是已经宕机了,这时每个运行正常的主机就会启动自身的资源接管模块来接管运行在对方主机上的资源或者是服务,继续为用户提供服务。一般情况下,可以较好的实现一台主机故障后,企业业务能够不间断的持续的提供服务。注意:所谓的业务不间断,在故障转移期间也是需要切换时间的,heartbeat的切换时间是5-20秒。
应用服务故障则不会产生切换,可以通过服务宕机把heartbeat服务停掉。
讲过上面的描述,要部署heartbeat服务,至少需要两台主机才能完成。那么,要实现高可用服务,这两台主机之间,是如何做到互相通信互相监控的呢?
下面是两台heartbeat主机之间通信的一些常用的可行的方法:
由于两台高可用服务器之间在指定的时间内,无法互相检测到对方心跳而各自启动故障转移功能,取得了资源以及服务的所有权,而此时的两台高可用服务器对都还活着并作正常运行,这样就会导致同一个IP湖综合服务在两端同时启动而发生冲突的严重问题,最严重的就是两台主机同时占用一个VIP的地址,当用户写入数据的时候可能会分别写入到两端,这样可能会导致服务器两端的数据不一致或造成数据的丢失,这种情况就本成为裂脑,也有的人称之为分区集群或者大脑垂直分隔导致裂脑发生的原因:
一般来说裂脑的发生,主要是由以下的几个原因导致的:
心跳线本身就坏了(包括断了,老化)
网卡以及相关驱动坏了,IP配置及冲突问题
心跳线间连接的设备故障(交换机的故障或者是网卡的故障)
仲裁的服务器出现问题
发生脑裂的时候,对业务的影响是及其严重的,有的时候甚至是致命的。如:两台高可用的服务器对之间发生脑裂,导致互相竞争同一个IP资源,就如同我们局域网内常见的IP地址冲突一样,两个机器就会有一个或者两个不正常,影响用户正常访问服务器。如果是应用在数据库或者是存储服务这种极重要的高可用上,那就导致用户发布的数据间断的写在两台服务器上的恶果,最终数据恢复及困难或者是难已恢复。实际的生产环境中,我们可以从以下几个方面来防止裂脑的发生:
增加一个仲裁机制。例如设置参考的IP,当心跳完全断开的时候,2个节点各自都ping一下参考的IP,不同则表明断点就出现在本段,这样就主动放弃竞争,让能够ping通参考IP的一端去接管服务。
通过第三方软件仲裁谁该获得资源,这个在阿里有类似的软件应用
heartBeat高可用软件在工作的过程中,一般来说,有三种消息的类型,具体为:
心跳消息为约150字节的数据包,可能为单播,广播或者多播的方式,控制心跳频率以及出现故障要等待多久进行故障转换
当主服务器恢复在线状态时,通过ip-request消息是要求备机释放主服务器失败时被服务器取得的的资源,然后被服务器关闭是仿主服务器失败时取得的资源以及服务。
备服务器释放主服务器失败时取得的资源以及服务后,就会通过ip-request-resp消息通知主服务器它不在拥有该资源以及服务,主服务器收到来自备节点的ip-request-resp消息通知后,启动失败时释放的资源以及服务,并开始提供正常的访问服务。
rexmit-request控制重传心跳请求。此消息不太重要,细节就不多介绍了
提示:以上的心跳控制消息都使用的是UDP协议发送到/etc/ha.d/ha.cf文件指定到任意的端口,或者指定到多播地址。
Heartbeat是通过IP地址接管和ARP广播进行故障转移的。
在主服务器故障的时候,备用节点接管资源后,会强制更新所有的客户端本地的ARP表(即清除客户端本地缓存的失败服务器的VIP地址和mac地址的解析记录)。确保客户端和新的主服务器进行对话。
(这提到的客户端机器是和Heartbeat高可用服务器对在同一个网络中的客户机,并不是最终的互联网用户,这里的客户端及其是相对Heartbeat高可用服务器对说的,这点,请注意下)
真实IP,又被称为管理IP,一般是配置在物理网卡上的实际IP,这可以看做是你本人的真实姓名,如:张三。在负载均衡以及高可用环境中,管理IP是不会对外提
供用户的访问服务的,而是仅作管理服务器使用,如ssh可以通过这个管理IP连接服务器
VIP是虚拟的IP,只是个概念而已,可能会误导,实际上就是Heartbeat临时绑在物理网卡上的别名IP,如eth0:x,x为0-255的任意数字,可以在一块网卡上绑
定多个别名,这样做的好处是当提供服务的服务器宕机之后,在接管的服务器上会直接会自动配置上同样的VIP提供服务。如果使用管理IP的话,来回迁移就难以做
到,而且,管理IP迁移过去了我们就不能够登录到这台机器上,这就需要到机房登陆了。VIP的实质就是确保两台服务器有一个管理IP不懂,就是随时可以连上机器,
然后,增加绑定其他的VIP,这样就算VIP转移走了,也不至于服务器本身连不上,因为还有管理的IP呢
ifconfig eth0:1 124.42.61.109 netmask 255.255.255.224 up(ip alias) –》heartbeat2软件默认是使用这个命令来添加VIP的
ip addr add 10.0.15.1/24 broadcast 10.0.15.255 dev eth1(辅助Ip)–》keepalived以及heartbeat3采用的方案添加VIP的
注意:使用ip addr能够查看到包括别名和辅助IP,用ifconfig无法查到辅助IP的配置情况
ip addr del 10.0.15.1/24 broadcast 10.0.15.255 dev eth1(辅助IP)
ifconfig eth0:1 124.42.61.109 netmask 255.255.255.244 down(ip alias)
heartbeat的默认配置文件的目录为/etc/ha.d heartbeat的常用配置文件有三个,分别为ha.cf、authkey、haresource.
重要资源目录:/etc/ha.d/resource.d/,如果以后自己开发程序,就放到这个地方即可,然后在haresource文件里直接调用。