问题：

如何强制Flume-NG在接收器失败后处理事件积压？

西门马鲁

2023-03-14

我正在尝试设置 Flume-NG 以从一堆服务器（主要运行 Tomcat 实例和 Apache Httpd）收集各种日志，并将它们转储到 5 节点 Hadoop 集群上的 HDFS 中。设置如下所示：

每个应用程序服务器将相关日志尾随到一个Exec源中（每个日志类型对应一个：java、htpd、syslog），该源通过FileChannel将它们输出到Avro接收器。在每台服务器上，不同的源、通道和接收器由一个代理管理。事件由驻留在Hadoop集群（该节点也托管了第二个名称节点和Jobtracker）上的AvroSource接收。对于每种日志类型，都有一个AvroSource侦听不同的端口。事件通过FileChannel进入HDFS接收器，HDFS接收器使用FlumeEventAvro EventSeriezer和Snappy压缩保存事件。

问题：Hadoop节点上管理HDFS接收器的代理（同样，每个日志类型一个）在几个小时后失败，因为我们没有更改JVM的堆大小。从那时起，许多事件被收集到该节点上的FileChannel中，之后也在应用程序服务器上的FileChannel上收集，因为Hadoop节点上的FileChannel达到了它的最大容量。当我修复问题时，我无法让 Hadoop 节点上的代理足够快地处理积压工作，以便它可以恢复正常操作。文件通道在沉没事件之前保存事件的 tmp 目录的大小一直在增长。此外，HDFS写入似乎真的很慢。有没有办法强制 Flume 在摄取新事件之前先处理积压工作？以下配置是否最佳？可能相关：写入HDFS的文件非常小，大约1 - 3 MB左右。对于HDFS默认的64MB块大小以及未来的MR操作来说，这肯定不是最佳的。我应该使用什么设置来收集足够大的文件中的事件，以适应 HDFS 块大小？我有一种感觉，Hadoop节点上的配置不正确，我怀疑BatchSize，RollCount和相关参数的值是关闭的，但我不确定最佳值应该是多少。

agent.sources=syslogtail httpdtail javatail
agent.channels=tmpfile-syslog tmpfile-httpd tmpfile-java
agent.sinks=avrosink-syslog avrosink-httpd avrosink-java

agent.sources.syslogtail.type=exec
agent.sources.syslogtail.command=tail -F /var/log/messages
agent.sources.syslogtail.interceptors=ts
agent.sources.syslogtail.interceptors.ts.type=timestamp
agent.sources.syslogtail.channels=tmpfile-syslog
agent.sources.syslogtail.batchSize=1

...

agent.channels.tmpfile-syslog.type=file
agent.channels.tmpfile-syslog.checkpointDir=/tmp/flume/syslog/checkpoint
agent.channels.tmpfile-syslog.dataDirs=/tmp/flume/syslog/data

...

agent.sinks.avrosink-syslog.type=avro
agent.sinks.avrosink-syslog.channel=tmpfile-syslog
agent.sinks.avrosink-syslog.hostname=somehost
agent.sinks.avrosink-syslog.port=XXXXX
agent.sinks.avrosink-syslog.batch-size=1

agent.sources=avrosource-httpd avrosource-syslog avrosource-java
agent.channels=tmpfile-httpd tmpfile-syslog tmpfile-java
agent.sinks=hdfssink-httpd hdfssink-syslog hdfssink-java

agent.sources.avrosource-java.type=avro
agent.sources.avrosource-java.channels=tmpfile-java
agent.sources.avrosource-java.bind=0.0.0.0
agent.sources.avrosource-java.port=XXXXX

...

agent.channels.tmpfile-java.type=file
agent.channels.tmpfile-java.checkpointDir=/tmp/flume/java/checkpoint
agent.channels.tmpfile-java.dataDirs=/tmp/flume/java/data
agent.channels.tmpfile-java.write-timeout=10
agent.channels.tmpfile-java.keepalive=5
agent.channels.tmpfile-java.capacity=2000000

...

agent.sinks.hdfssink-java.type=hdfs
agent.sinks.hdfssink-java.channel=tmpfile-java
agent.sinks.hdfssink-java.hdfs.path=/logs/java/avro/%Y%m%d/%H
agent.sinks.hdfssink-java.hdfs.filePrefix=java-
agent.sinks.hdfssink-java.hdfs.fileType=DataStream
agent.sinks.hdfssink-java.hdfs.rollInterval=300
agent.sinks.hdfssink-java.hdfs.rollSize=0
agent.sinks.hdfssink-java.hdfs.rollCount=40000
agent.sinks.hdfssink-java.hdfs.batchSize=20000
agent.sinks.hdfssink-java.hdfs.txnEventMax=20000
agent.sinks.hdfssink-java.hdfs.threadsPoolSize=100
agent.sinks.hdfssink-java.hdfs.rollTimerPoolSize=10

共有1个答案

柴宝

2023-03-14

我在您的配置中看到的几件事可能会导致问题：

您的第一个代理似乎有一个批量大小为1的avro接收器。您应该将其增加到至少100个或更多。这是因为第二个代理上的avro源将提交到批大小为1的通道。每次提交都会导致fsync，从而导致文件通道性能不佳。exec源上的批大小也是1，这导致该通道也很慢。您可以增加批量大小（或使用后台目录源-稍后详细介绍）。

您可以让多个 HDFS 接收器从同一通道读取以提高性能。你应该确保每个接收器写入不同的目录或具有不同的“hdfs.filePrefix”，以便多个 HDFS 接收器不会尝试写入相同的文件。

HDFS接收器的批大小为20000，这相当高，callTimeout默认为10秒。如果要保持如此大的批大小，应该增加“hdfs.callTimeout”。我建议将批量大小减少到1000左右，超时时间大约为15-20秒。（请注意，在当前的批处理大小下，每个文件只能容纳2个批处理-因此请减小批处理大小，增加rollInterval和timeOut）

如果您使用的是 tail -F，我建议您尝试新的假脱机目录源。若要使用此源，请将日志文件轮换到假脱机目录源处理的目录。此源将仅处理不可变的文件，因此您需要轮换日志文件。将尾巴 -F 与 exec 源一起使用存在问题，如 Flume 用户指南中所述。

类似资料：

Flume hdfs接收器不断制作. tmp文件

某些HDFS接收器文件未关闭有人说，如果接收器进程因超时条件等问题而失败，它不会再次尝试关闭文件。我已经查看了水槽日志文件，但没有错误。然而，日志文件显示，每个周期，flume生成两个tmp文件，只关闭一个tmp。。。对于配置的任何建议将不胜感激！谢谢！
通过HDFS接收器将flume事件写入S3确保事务

我们使用Flume和S3来存储我们的事件。我认识到，只有当HDFS接收器滚动到下一个文件或Flume优雅地关闭时，事件才会传输到S3。在我看来，这可能会导致潜在的数据丢失。Flume文档写道： ...Flume使用事务性方法来保证事件的可靠传递。。。此处是我的配置：我想我只是做错了什么，有什么想法吗？
无法在Flume-ng中创建类型为HDFS的接收器

我有一个写日志到HDFS的Flume-ng。我在一个节点中做了一个代理。但是它没有运行。这是我的配置。 #示例2.conf：单节点水槽配置 #命名这个代理上的组件 agent1.sources=源1 agent1.sinks=sink1 agent1.channels=channel1 agent1.sources.source1.type=avro agent1.sources.sourc
Flume-即使接收器不工作，源也会接受事件吗？

水槽新手。假设我有一个代理，它有一个 avero 源、一个 hdfs 接收器和一个文件通道。假设在某个时候接收器无法写入hdfs。源是否会继续接受事件，直到通道填满？或者即使文件通道未满，源也会停止接受事件吗？
Apache Flume .tmp强制终止启动后未清理的文件

我看到了几个与此相关的问题，但不太明白我在寻找什么。我使用的是Flume 1.8.0，在Flume代理被强制终止后，我看到了.tmp文件。这些不会在水槽药剂重新启动时清理干净。有没有任何方法可以配置Flume代理来执行清理，或者这是我需要自己处理的事情（在Flume之外）？这是我测试的水槽 conf 文件：使用上面的conf文件启动Flume代理。在它向HDFS写入了几个文件后，使用杀-9杀死
Flume ng/Avro源、内存通道和HDFS接收器-小文件太多

我面临一个奇怪的问题。我正在寻找从水槽到HDFS的大量信息。我应用了推荐的配置，以避免过多的小文件，但它不起作用。这是我的配置文件。这个配置有效，我看到了我的文件。但文件的平均重量为1.5kb。水槽控制台输出提供了此类信息。有人知道这个问题吗？以下是有关水槽行为的一些信息。该命令是flumengagent-na1-c/path/to/flume/conf-conf文件示例flume。con

如何强制Flume-NG在接收器失败后处理事件积压？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档