Zebra 流量控制

优质

小牛编辑

140浏览

2023-12-01

1 背景

在系统访问量较大时，某些库的负载可能非常高，或者因为临时故障或系统bug导致大量异常SQL打到某个库上。为了防止数据库被这些异常流量打垮，需要在数据库访问层上对MySQL进行保护，因此zebra需要提供对某些特定SQL或某个库进行限流的功能。（SQL限流只是用于临时解决问题，事后还需业务方进行优化或扩容）

2 目标

动态限流，可动态配置限流策略与流量大小
支持限制某个数据源上的某些特定的SQL（sqlId）或者某些类型的SQL
支持对事务的限流优化（特定条件下生效）

3 架构

zebra提供按照sqlId限制某些特定SQL或者限制某种类型的SQL两种限流方式，并且可动态配置。

应用在启动时或策略变更后，解析并根据与本机有关的配置修改filter。在限流开启后，要执行的SQL依次通过多个rule，如果某条SQL被判断为需要限制，则进行拦截并向上层服务抛出异常。

4 配置

zebra-flow.jdbcref.config

{
     "rules": [
    {
        "enable": false,                            // 规则是否有效
          "type": "SqlId",                            // 规则是否有效
          "config": {
            "id1": 10,                                // 某个sqlId及对应允许通过的百分比
            "id2": 20
          },
          "dbIp": "10.1.2.3",                            // 要限制的数据库ip
          "appIp": "10.72.*,10.73.*"                    // 要限制的应用ip
    },
    {
          "enable": false,
          "type": "AutoControl",
          "config": {
            "strategy": "Connection",                // 通过连接请求失败率来进行限流(暂时不需配)
            "threshold": 10,                        // 失败率超过百分之十是开始限流
            "floor": 50,                            // 流量下限是百分之五十
            "reduce": "linear:5/fast",                // 流量限制策略
            "recovery": "linear:5/exponential:2",    // 流量恢复策略
            "window":60,                            // 统计时间窗口(选配，默认60s，最大300s)
            "total":100                                // 窗口内请求总量>=total且失败率                                                               >=threshold时限流生效(选配，默认100个)
          },
          "dbIp": "10.1.2.3",
          "appIp": "10.72.*,10.73.*"
    },
    {
          "enable": false,
          "type": "ForceControl",
          "config": {
            "floor": 50                                // 流量下限百分比(针对连接，开启后会直接降到                                                       floor，优先级高于AutoControl)
          },
          "dbIp": "10.1.2.3",
          "appIp": "10.72.*,10.73.*"
    }
  ]
}

限流配置为JdbcRef级别，zebra启动时会在WallFilter内记录应用中所有的JdbcRef，并初始化配置，配置可动态修改。

rules:可以配置多个限流规则，每个可以针对sqlId或全部限流
enable：JdbcRef限流规则的开关
type: 限流规则类型，SqlId指限制特定Id的SQL，AutoControl指失败率达到阈值后自动限流，ForceControl指强行限流
config: 对应限流策略的具体配置
dbIp: 要限流的实例Ip（可以配置多个；"xx.xx."表示以xx.xx开头的实例；""表示所有实例）
appIp: 在某些机器上开启限流（可以配置多个；"xx.xx."表示以xx.xx开头的机器；""表示所有机器）

5 按SqlId限流

SqlId的计算规则：

sqlId = MD5(/*appName*/sqlName).subString(0, 8)

其中appName为应用名；sqlName指的是Mybatis中每一个mapper方法名。通过以上的算法，会给应用中的每一个SQL都生成一个8位的ID。

在接入了zebra-dao后，zebra可以给通过PreparedStatement执行的SQL算出一个唯一的ID，这个ID会拼接到每个SQL的前面一起发往数据库。一旦数据库发生故障，DBA可以抓取到这个SQL的ID，那么就可以根据这个ID进行流量控制了。

在管理端上进行配置后，lion会将配置推送到监听了该配置的客户端上。WallFilter收到配置后首先会检查限流是否开启且是否是本机Ip需要限流，然后根据配置创建过滤规则。在processSQL中计算每条SQL的Id，发现可以匹配时，利用随机数根据设定的流量比例进行控制，被拒绝的SQL会向上层服务配SQLException。

注意：根据SqlId限流时无法针对事务进行优化。