Bonding允许两个或多个接口(“slaves”)共享网络流量。从高层的角度来看,Bonded的接口就像一个单一接口,但是它们具有多个网络接口的带宽,例如两个1 GB物理接口就像一个2 GB的接口。Bond也增加了稳健性:只要至少有一个slave是UP的,Bond接口就不会Down。
在vswitchd中,Bond总是至少有两个slaves(并且可能有更多)。如果配置等的错误导致Bond只有一个slave,Bond端口成为一个普通的端口,而不是一个Bond端口,也不具有本文所述的任何Bond端口的特殊功能。
有许多形式的Bonding,其中ovs-vswitch只实现了少数几种。ovs-vswitchd实现的最复杂的Bond称为“source locad balancing”,或SLB bonding。SLB bonding基于以太网源地址在slaves间分配流量。只有当Bond上的流量有多个以太网源地址这才是有用的,例如如果来自多个虚拟机的网络流量复用在bond接口上。
注:
大多数的ovs-vswitchd实现都在文件“vswitchd/bridge.c”中,因此以下的代码引用除非另有说明,否则应假定引用的该文件。
当创建bond之后,slave初始的启用和禁用取决于是否在NIC上检测到载波(请参见 “iface_create()”)。之后,如果slave设备的载波Down了一段超过downdelay长度的时间,slave设备禁用,如果载波Up了一段超过updelay长度的时间,启用slave设备(请参见 “bond_link_status_update()”)。有一个例外可以跳过updelay时长:如果当前没有任何启用的slave,则第一个载波变为Up的slave设备会立即启用。
updelay时长应设置为比连接bond端口的物理交换机的STP协议的转发延时更长的时间(如果该交换上启用了STP)。否则,slave将可能过早启用,并将流量转到它,而此时物理交换机还没有开始在此端口上转发报文,致使一段时间内一些数据暂时处于“blackholed”状态。例外的情况是:单个启用的slave不会在这方面造成任何问题,因为当没有启用的slave时,所有输出数据包不管怎样都被被“blackholed”。
当slave被禁用时,vswitch立即为到此slave的流量选择一个新的输出端口(参见 “bond_enable_slave”)。它还在bond端口(新选择的slave)上发送“gratuitous learning packet”,尤其是RARP,内容是vswitch在除bond端口之外的端口上学习到的MAC地址信息(参见“bundle_send_learning_packets()”),以便告知物理交换机,应使用新的slave替换之前被禁用的slave。(这种行为可能在vswitch仅有一个端口(bond)连接在物理交换机上才合理;vswitched可能提供一种在其它情况下禁用或配置此行为的选项。)
Bonding可在任意slave上接受单播数据包。这有时会导致发送到给定MAC的前几个数据包的产生报文重复,如果连接到bond的物理交换机正在将数据包泛洪到该目的MAC,因为它还没有为该MAC地址学习到正确的slave接口。
Bonding在莫一时刻只接受单个slave(“active slave”)上的多播(和广播)报包。在其它slave上接收的多播数据包被抛弃。否则,每个多播包都将被复制,每个slave一次,因为连接bond的物理交换机会泛洪这些报文。
当vswitch学习到该报文的目的MAC地址是不同于bond端口自身的其它端口的MAC,Bonding也将丢弃接收到的报文。这是因为可能是vswitch本身将数据包从bond的不同slave发出,当前又接收到该报文。这发生在数据包是多播的或者物理交换机尚未学习到MAC,并且泛洪时。但是,对于广播ARP回复报文,vswitch对此规则进行了例外处理,其表示MAC地址已移动到另一个交换机,可能是因为VM迁移。(ARP回复通常是单播的,所以此例外处理与正常的ARP响应不匹配。它将与在bond fail-over发送的学习报文匹配)。
“active slave”只是bond创建后第一个启用的slave(请参见“bond_choose_active_slave()”)。如果“active slave”被禁用,则在保持active的slave中选择一个新的“active slave”。目前,由于配置的工作方式,这往往是接口名按字母顺序排在第一位的slave,但这不是确定的。
当一个报文从bond端口发送时,实际使用的slave端口基于报文的源MAC地址和VLAN标签选择(参见“bond_choose_output_slave()”)。具体的,源MAC地址和VLAN标签被散列为256中的一个值,该值在名为“bond hash”的哈希表中查找,此表保存在端口结构的成员“bond_hash”中。该哈希表条目标识一个slave。如果尚未为该哈希表条目选择任何slave,vswitched任意选择一个。
每10秒钟,vswitched重新平衡slave(参见“bond_rebalance”)。为了重新平衡,vswitchd检查大约上一分钟内每个slave传输的字节数,最近发送更多报文的slave的权重高于最近发送较少的slave。它按照从最高符合到最低的顺序考虑每个slave。如果高负荷的slave H明显高于低负荷的slave L,并且slave H有至少有两个哈希条目,那么vswitched将H的一个哈希条目转移L。但是,vswitched将只移动H的一个哈希到L,如果它将H和L之间的负载比减少至少0.1。
目前,“significantly more loaded”意味着H必须至少多承载了1 Mbps的流量,并且流量必须至少比L的大3%。
每种bond平衡模式都有不同的考虑因素,如下所述。
LACP Bonding需要远端交换机支持LACP,但它是很简单,在LACP协商完成后,不再需要对接收到的数据包进行特殊处理。
几个支持LACP的物理交换机阻止配置为使用LACP的端口的所有流量,直到与主机完成LACP协商。当在OVS主机(如XenServer)上配置了LACP Bond时,意味着在物理交换机端口和OVS主机的Bond配置间隙将中断网络连接。如果由不同的人负责管理交换机和OVS主机,中断时间可能会比较长。
如果可以在配置物理交换机之前,提前在OVS主机上配置LACP,则可以避免此类网络连接故障,OVS主机可回退到其它Bond模式(active-backup),直到物理主机的LACP配置完成。Open vSwitch的选项“lacp-fallback-ab”正是提供此行为.
主备Bond将所有流量发送到一个“active”slave设备,直到该slave变得不可用。因为它比SLB Bond 要简单得多,当LACP不是选项时,它是首选。此外,它是唯一支持将每个slave端口连接到不同的上游交换机的模式。
SLB Bonding允许在没有远程交换机的知识与合作的情况下进行有限形式的负载平衡(load balancing)。SLB的基本原理很简单。SLB赋予每个源MAC+VLAN对一个链路,并从该链路发送所有来自对应MAC+VLAN的数据包。远程交换机中的学习功能会导致它将到以上MAC+VLAN的数据包通过同一个链路发送。
SLB Bonding有以下的复杂性:
当远程交换机没有学习到单播报文的目的MAC地址时,将会把报文泛洪到SLB bond的所有链路上,Open vSwitch将会转发重复的报文,每个链路一个到其它的交换机端口。
Open vSwitch未解决此问题。
当远程交换机从非bond的端口接收到多播或广播数据包时,它会转发到SLB bond中的所有链路上。如果不特别处理,这将导致数据包重复。
Open vSwitch通过仅在“active slave”接收多播和广播报文避免数据包重复,并丢弃其它slave接收到的多播和广播数据包。
当Open vSwitch 将多播或广播数据包转发到SLB Bond的非active slave时,远程交换机将其转发至SLB bond中的所有其它链路上,包括“active slave”。没有特殊处理,这意味着Open vSwitch会转发第二份报文拷贝到每个交换机端口(除bond之外),包括数据包的发起端口。
未处理此情况Open vSwitch将丢弃在SLB bond任何链路接收到的报文,这些报文的源MAC+VLAN信息是由其它的端口学习到的(这意味着在Open vSwitch中实现的SLB非常依赖MAC地址学习。值得注意的是,SLB与“flood_vlans”特性不兼容)
假设一个MAC+VLAN从另一个端口移动到SLB bond(例如,当虚拟机从一个Hypervisor迁移到另一个Hypervisor)。如果没有额外的特殊处理,Open vSwitch直到MAC地址学习条目过期才会注意到,最多60秒后,根据规则2。
oOpen vSwitch通过监听免费ARP来避免60秒的延迟,它们通常在VM迁移时发出。作为规则2的例外,SLB bond上收到的免费ARP不会被丢弃,需要以通常的方式更新MAC地址(如果VM迁移没有触发免费ARP,或者免费ARP在网络中丢失,则60秒延迟仍然发生)。
假设一个MAC+VLAN从SLB bond移动到另一个端口(例如,当虚拟机从另一个Hypervisor迁移到此Hypervisor),MAC+VLAN所属的VM发出一个免费ARP,而Open vSwitch则将免费ARP发送到了SLB bond中非active slave的链路。远端交换机将免费ARP又转发给SLB bond中的所有其它链接,包括active slave。如果没有额外的特殊处理,这将意味着Open vSwitch会知道MAC+VLAN位于SLB bond上,依据第3条规则。
Open vSwitch通过接收自非SLB端口的免费ARP来“locking”对应的MAC+VLAN的 MAC地址学习表条目来避免这个问题。5秒钟内,在SLB Bond上接收的免费ARP不会更新锁定的MAC学习表条目。