QQ 群问答整理

优质

小牛编辑

131浏览

2023-12-01

报警

Q: 能不能当网络流量超过某个阀值的时候,发报警邮件把占用流量Top3的程序找出来?each (endpoint=xxx metric=yyy tag1=tttt) expression可以这么写吗？ @聂安_小米

A: 可以。如果endpoint不是机器名，可以用each表达式配置报警策略。如果endpoint是机器名，建议使用 hostgrp + template的方式配置策略——这种方式更加便于管理。（当然，endpoint不是机器名，也可以使用hostgrp + template的方式，只不过需要把该endpoint插入到hostgrp中）

Q: 捎带问下，最大报警次数为3，那前三次报警的时间间隔在哪里设置

A: 比如你的数据是一分钟上来一次，理论上第三分钟，第六分钟，第九分钟分别报警三次就不再报警了。但是这样报警我们觉得太频繁，于是judge中有一个最小报警设置，默认是5分钟，即：两次报警之间至少间隔5分钟：第三分钟、第八分钟、第13分钟。Link不做告警合并，Alarm只合并一分钟内相同类型的报警。

Q: 怎么知道我的策略是否同步成功了？

A: curl -s "judge-hostname:port/strategy/host.test.01/cpu.idle", 这个是查看机器host.test.01 & metric为 cpu.idle 对应的策略。

Q: 我想判断磁盘空间少于10%并且剩余空间少于1TB 才报警，有些大容量的存储，10%的剩余空间可能还有好几 TB，这样可以实现吗？

A: 目前架构不支持组合策略。

Q: 我现在做了一个 ping 检测，会通过2各节点 A,B 去 ping，对应的是2个 tag，ping_server=A,ping_server=b，我现在是想做一个报警项，当 A,B 节点到目标主机都不通我才报警。还有例子，比如我想设置报警，nginx 的连接数波动超过20% 而且链接数大于1000的才报警，可能有些机器业务的nginx 量很少，从连接数1到连接数2的波动就已经是100%了。

A: 这个可以划归到集群监控的情况，一个集群两机器都宕机才报警，只有一个宕机不报警。组合策略如果是针对两个不同的采集项，那以现在的架构肯定是实现不了的，因为两个报警项可能落到了两个不同的 judge 实例上了。下个版本不会做，只能想办法在后面的组件比如 alarm 来搞，还挺复杂的

Q: 这个max=3 是指同一个监控项比如cpu.busy 在一定时间内最多发三次报警吗？

A: max表示最大报警次数，比如你配置了cpu.idle小于5报警，max设置为3那么报警达到3次之后即使仍然小于5也不会再报警了，直到接下来某次cpu.idle大于5了，就会报一个ok出来。以后如果又小于5了，那就会再次报警

Q: 为什么未恢复报警那个模块，我把出现的报警标记为已解决后，被监控的主机再次出现同样的问题，没有再次触发报警（新手）

A: “标记为已解决” 这个动作，和大家理解的不一样。这个并不是真正的已解决，只是说，有些报警自己没有办法恢复了，就留在alarm-dash里面了，这个solved只是把alarm-dash里面遗留的清理掉

Q: Expression 可以这样写吗？each(metric=net.port.listen port=8100 endpoint=1.2.3.4)

A: 可以

Q: 报警有自动过滤的机制吗？

A: 没有自动过滤的机制，hostgrp里配置了策略就会添加到相应的host上。报警判断时，假的host不可能上来数据，因此也就不会触发报警。进一步讲，这种没有数据上报就不报警可能不是用户希望看到。可以透过nodata的报警搞定之。

Q: 同比环比报警可能会有一个问题, 就是误报的 case . 假设 A -> B -> C , 其中 B 是异常时间点. 到 B 这个点报警. 然后到 C 这个时间点恢复正常的话, 又会报警一次. 不知道大家有没有什么比较好的思路

A: 同比环比的告警，用在实际的环境中，误报太多，缺乏实际的操作意义，所以我们不打算支持。只提供了流量突升突降的告警功能。

Q: 报警通知（邮件、短信、等等）在 Open-Falcon 代码里面没有，该如何实现？

A: alarm将报警邮件内容写入redis队列，sender负责读取并且发送，你可以二次开发sender，让它不通过调用http接口实现邮件发送，或参考 mail-provider 以及本书中的'社区贡献'。

数据

Q: 一旦某台机器下线，历史数据就不能查询了？

A: 是的。一旦数据不更新了，7天后就不能查询了。task索引清除的周期，没有留出配置接口，因为这个周期很少变更。如果需要，可以修改源码中的删除周期。@Fancy_金山 (需要注意的是，这个清理只是清理了索引，历史数据本身，仍然是存储在磁盘上的，当该指标再次被更新的时候，索引会自动再次创建，历史数据仍能被查询到)

Q: graph扩容或者摘除机器，会对原先数据有损坏吗？

A: @陈凯军监控数据，是按照一致性哈希规则，被分片、打在不同的graph实例上的。graph实例数量，会严重影响一致性哈希的数据分片结果。graph集群缩扩容时，监控数据的分布规则将彻底发生变化，新老数据不可能被同时查询到。即使老的数据没有被损坏，也是查询不到了。

Q: 为什么是 hostname 唯一，而不是ip唯一？

A: host表中有个id，这个id通常是CMDB的id，用这个id做唯一标识，如果cmdb中hostname改了，同步的时候发现hostname变了就同步到监控了。ip是agent自动探测的，通常是取内网ip，但是有的机器可能有多个ip，可能没有内网ip，自动探测的ip作为唯一标识不是很好用。

Q: grp表的come_from字段是什么意思

A: 用来区分 机器分组 的不同来源: 机器分组可能是用户手动添加的、也可能是从内部其他系统同步过来的、等等。

Q: 我能把历史数据放到falcon中吗？

A: falcon中的数据，只能按照时间戳进行追加，不能插入。利用这个特性，你可以在今天的某个时间点，按照顺序把昨天的数据追加进来后，再追加今天的数据。

Q: 扩容时如何保留历史数据呢？

A: 扩容的时候，历史数据无法迁移。现在能做的是，在扩容的时候，保持数据双写，比如持续一个月，这样让用户的看图功能，不要中断。然后把历史数据，全部移动到一个大容量磁盘的机器上，搭建一个dashboard，用来专门查询历史数据。

插件

Q: 自定义的插件同步后，是否要重启一下agent，才会生效？

A: 不需要。curl -s "hostname:1988/plugin/update"，这样就能同步插件。

负载均衡

Q: Open-Falcon 能做接口代理嗎？负载均衡建议怎么做呢？

A: 域名解析到ip。用 domain.name:port访问。没有做接口代理。transfer大于1个实例时，ip+port{6060, 8433} 的方式需要配置transfer实例列表、不方便。建议用域名实现负载均衡。 task叢集設定：https://github.com/open-falcon/task/blob/master/README.md

监控

open-falcon是一个监控框架，理论上任何软件只要可以把数据组装为open-falcon要求的格式，就可以用open-falcon监控。比如刚才大家讨论的mysql的监控，其实就是自己写了一堆采集脚本去采集mysql的一些指标，然后push给open-falcon就可以了。应用本身也可以用类似的做法，写脚本采集应用的监控性能指标，然后push给open-falcon。不过每个人都自己写脚本，可能重复造很多轮子。小米内部的实践是：针对java的应用有一个通用jar包，只要maven引入这个jar包，就可以采集一些基础数据，比如某个接口的调用latency、qps等等。比较好的实践方式是把监控数据的采集直接嵌入业务代码。但是要减少侵入性，通过一些队列、异步之类的方式，不要阻断主要业务逻辑执行流程。收集到数据之后post给本机agent即可

Q: Open-Falcon 支持 Windows 监控吗？

A: 支持，请见本书中的'Windows 主机监控'。

Q: 请教各位大神，open-falcon怎么监控端口？我没有搜到net.port.listen这个metirc，只有cpu,mem,net

A: 要先配个模板，才会有port的metric,大概架构是，配置模板，metric是net.port.listen,tag里配置port=xxx，然后模板关联hostgroup，hostgroup里的host就会通过hbs获取到需要监测的port，然后探测上报

Q: docker 中的 agent 一直出现 index out of range 的错误

A: 刚才这个问题很典型，经过追查，问题是这样的：agent运行在docker容器里，docker容器限制了cpu个数，agent拿到了正确的cpu个数，比如宿主机是32个核，限制docker容器为2个核，agent就拿到了cpu核数为2 。于是准备了一个长度为2的数组来放置各个cpu的性能数据。但是，接下来agent要去读取/proc/stat，docker容器内部看到的/proc/stat文件内容和宿主机一般无二，于是看到了32个核，于是index out of range。

Q: 建议用 Agent 做日志分析监控吗？

A: Agent不采集日志文件，这么做日志监控不是个好的实践方式，我个人推荐的做法是业务程序自己在代码中catch住exception，有问题直接调用报警接口报警得了，RD 收到报警之后自己去查log，小米应该是有个scribe集群来收集日志，具体我也不清楚。

安全性問題

Q: 任何机器都可以访问 Transfer 会不会有安全性问题？

A: Transfer部署在内网。不同IDC内网是联通的，因此访问Transfer基本没有ACL的问题

其他

Q: 组件之间怎么沟通的？

A: jsonrpc tcp传输，编码为二进制传输的

Q: Open-Falcon 的架构图是用什么画的？

A: Mindmanager/PPT

Q: QQ 群信息太多、很多重复问题、又容易发散，是否建个论坛？

A: 论坛现在大家比较少用了。常见问题大家可以 fork github.com/open-falcon/book.git 然后发 PR，其余的可以使用 Github issue 作为论坛使用。

Q: too many open files 是什么问题？

A: 可以先透过 ulimit -a 检查 file descriptor 的限制，如果默认 1024 太小，可以透过 ulimit -n 65536 加大。

Q: Open-Falcon 的未来计划？

A: https://github.com/XiaoMi/open-falcon/issues 一些接下来，要做的事情，我都会更新在这里（大家也可以提，思路更广一些）有能力、有时间的朋友，可以认领一个或多个issue，或者配合撰写、贡献相关文档，都是热烈欢迎的。特别是一些重度使用open-falcon的大户哈，希望能把你们自己的一些改进，也都推进到open-falcon的github仓库里哈：）【比如美团、金山云、快网、赶集之类的~~~】接入并使用了Open-Falcon的公司，可以把相关信息追加到下面这个issue的评论中 https://github.com/XiaoMi/open-falcon/issues/4