当前位置: 首页 > 知识库问答 >
问题:

Apache Flume Hdfs水槽

公孙辰龙
2023-03-14

我们可以为HDFS Sink添加分隔符吗?写入文件时,我们如何添加记录分隔符?

以下是配置:-

 tier1.sinks.hdfssink.type = hdfs
 tier1.sinks.hdfssink.channel = memory
 tier1.sinks.hdfssink.hdfs.path=tmp/kafka/%{topic}/%y-%m-%d
 tier1.sinks.hdfssink.hdfs.rollSize=268435456
 tier1.sinks.hdfssink.hdfs.rollCount=0
 tier1.sinks.hdfssink.hdfs.rollInterval = 0
 tier1.sinks.hdfssink.hdfs.useLocalTimeStamp=true
 tier1.sinks.hdfssink.hdfs.fileType=DataStream
 tier1.sinks.hdfssink.hdfs.inUseSuffix=.tmp
 tier1.sinks.hdfssink.hdfs.batchSize=10000

共有1个答案

昌正奇
2023-03-14

我倾向于使用Flume EventSerializer,其配置将与此类似:

tier1.sinks.hdfssink.serializer = <your serialization class>
tier1.sinks.hdfssink.serializer.delimiter = < your delimiter>

您可以参考以下github站点以获取详细信息和代码片段。

https://github.com/relistan/flume-serializers

希望这有帮助!

 类似资料:
  • 我正在尝试使用hdfs水槽运行水槽。hdfs在不同的机器上正常运行,我甚至可以与水槽机器上的hdfs交互,但是当我运行水槽并向其发送事件时,我收到以下错误: 同样,一致性不是问题,因为我可以使用hadoop命令行与hdfs交互(水槽机不是datanode)。最奇怪的是,在杀死水槽后,我可以看到tmp文件是在hdfs中创建的,但它是空的(扩展名仍然是. tmp)。 关于为什么会发生这种情况的任何想法

  • 我遇到了Flume的问题(Cloudera CDH 5.3上的1.5): 我想做的是:每5分钟,大约20个文件被推送到假脱机目录(从远程存储中抓取)。每个文件包含多行,每行是一个日志(在JSON中)。文件大小在10KB到1MB之间。 当我启动代理时,所有文件都被成功推送到HDFS。1分钟后(这是我在flume.conf中设置的),文件被滚动(删除. tmp后缀并关闭)。 但是,当在假脱机目录中找到

  • 我是cucumber和水豚的新手,我对以下错误感到困惑: 在我的功能中,我有: 我的步骤如下所示: 我尝试了“click(button\u text)和click\u link”方法。我想这可能是我没有看到的明显的东西。我试图找到按钮元素的css定位器,然后单击该元素。我认为regex不需要更改,因为我正在更改“button\u text”局部变量的内容。还是我?

  • 水泵组件能够将水抽到高处,用于实现水泵案例创意。 净重量:91.2 体积:D27×75mm 参数 水孔直径:6.5mm 噪声:<60dB 额定电压:12V 电流(带负载):<320mA 抗跌落能力:1.5m 工作温度:-10℃~55℃ 工作湿度:<95% 特点 工作噪音低

  • 借助不同的连接线,水泵模块得以适配掌上扩展板、mBot2与直流电机驱动。 水泵可以在它们的驱动下进行吸水或鼓气,从而实现对水流动的控制。注意: 水泵的使用需要借助配套的水管,且水泵无法在水中工作。 兼容性说明 驱动方式 使用连接线 掌上扩展板-直流电机接口 mBot2 扩展板-直流电机接口 mBuild 直流电机驱动模块 其他支持 5V 电压输出,且峰值输出电流在 1A 以上的直流电机驱动接口 自

  • 我想使用 flume 将数据从 hdfs 目录传输到 hdfs 中的目录,在此传输中,我想应用处理形态线。 例如:我的来源是 我的水槽是 有水槽可能吗? 如果是,源水槽的类型是什么?

  • 我有一个要求,我想运行以假脱机目录作为源的 Flume 代理。将假脱机目录中的所有文件复制到 HDFS(sink) 后,我希望代理停止,因为我知道所有文件都被推送到通道。我还想每次为不同的假脱机目录运行此步骤,并在目录中的所有文件都标记为 .完成。有没有办法停止水槽剂?

  • 我对Flume和/或log4j有问题。我有带log4j和flume appender的JavaEE应用程序=一切都很好,工作正常。 当我用下面的配置运行水槽时,一切都很好。 这里是flume配置文件 如果我将接收器从 hdfs 更改为 file_roll,则水槽代理会创建日志文件,但没有任何内容。这是来自水槽的新 conf-file。 我的错误是什么?