当前位置: 首页 > 知识库问答 >
问题:

使用水槽将数据从kafka主题导入到hdfs文件夹

汪才英
2023-03-14

我正在使用水槽从kafka主题HDFS文件夹加载消息。所以,

  1. 我创建了一个主题 TT
  2. 我通过Kafka控制台制作人向 TT 发送了消息
  3. 我配置了水槽代理 FF
  4. 运行 flume agent flume-ng agent -n FF -c conf -f flume.conf - Dflume.root.logger=INFO,console

代码执行停止,没有错误,并且不会向 HDFS 写入任何内容。日志文件包含此警告 主题的使用者线程 flume_-0 不使用任何代理分区。

非常感谢任何帮助。提前感谢。:)

共有1个答案

呼延曜灿
2023-03-14

这个conf解决了问题

  • FF.sources=kafka-source
  • FF.channel = kafka-channel
  • FF.sinks =hdfs-sink FF.channels.kafka-channel.type org.apache.flume.channel.kafka.KafkaChannel
  • FF.channels.kafka-channel.kafka.bootstrap.servers = wided-Latitude:9092
  • FF.channels.kafka-channel.kafka.topic = TT
  • FF.channels.kafka-channel.parseAsFlumeEvent = false
  • FF.sinks.hdfs-sink.hdfs.writeFormat = Text
  • FF.sinks.hdfs-sink.channel = kafka-channel
  • FF.sinks.hdfs-sink.type = hdfs
  • FF.sinks.hdfs-sink.hdfs.path = hdfs://***:8020/spark/
 类似资料:
  • 我试图设置一个flume代理来从syslog服务器获取数据。基本上,我在所谓的服务器(server1)上设置了一个syslog服务器来接收syslog事件,然后将所有消息转发到安装了flume代理的不同服务器(server2 ),最后所有数据将被汇聚到kafka集群。 水槽配置如下。 但是,不知何故,logsys并没有注入水槽药剂。 征求您的意见。

  • 我正在尝试通过水槽从kafka将数据放入hdfs中。kafka_producer每10秒发送一条消息。我想在hdfs上的一个文件中收集所有消息。这是我使用的水槽配置,但它在hdfs上存储了许多文件(一个用于消息): 附言我从一个文件开始.csv。kafka 生产者获取文件并选择一些感兴趣的字段,然后每 10 秒发送一个条目。Flume将条目存储在Hadoophdfs上,但存储在许多文件中(1个条目

  • 我正在尝试实现一个简单的Flume HDFS接收器,它将从Kafka通道获取事件,并将它们作为文本文件写入HDFS。 建筑非常简单。这些事件从twitter流式传输到kafka主题,flume hdfs sink确实会将这些事件写入hdfs。这是Kafka-制片人斯塔科弗洛问题的第二部分。 当我执行这个命令时没有出现错误,看起来运行得很好,但是我看不到hdfs中的文本文件。我无法调试或调查,因为在

  • 我正在为我公司的 POC 实施一个小型 hadoop 集群。我正在尝试使用Flume将文件导入HDFS。每个文件都包含如下 JSON 对象(每个文件 1 个“长”行): “objectType”是数组中对象的类型(例如:事件、用户…)。 这些文件稍后将由多个任务根据“对象类型”进行处理。 我正在使用spoolDir源和HDFS接收器。 我的问题是: > 当flume写入HDFS时,是否可以保留源文

  • 我正在使用flume将本地文件源到HDFS接收器,下面是我的conf: 我使用用户“flume”来执行这个conf文件。 但它显示我找不到本地文件,权限被拒绝 如何解决这个问题?

  • 当hdfs不可用时,是否有方法确保数据安全?场景是:kafka源,flume内存通道,hdfs接收器。如果水槽服务关闭了,它是否可以存储主题分区的偏移量,并在恢复后从正确的位置消费?