我正在尝试使用hdfs水槽运行水槽。hdfs在不同的机器上正常运行,我甚至可以与水槽机器上的hdfs交互,但是当我运行水槽并向其发送事件时,我收到以下错误: 同样,一致性不是问题,因为我可以使用hadoop命令行与hdfs交互(水槽机不是datanode)。最奇怪的是,在杀死水槽后,我可以看到tmp文件是在hdfs中创建的,但它是空的(扩展名仍然是. tmp)。 关于为什么会发生这种情况的任何想法
我尝试每5分钟用其他事件刷新. tmp文件,我的源代码很慢,需要30分钟才能在我的hdfs接收器中获取128MB文件。 flume hdfs接收器中是否有任何属性,我可以在将.tmp文件滚动到hdfs之前控制该文件的刷新率。 我需要它使用. tmp文件中的hive表查看HDFS中的数据。 目前我正在查看来自的数据。tmp文件,但是。由于卷大小为128MB,tmp文件长时间不刷新。
我正在尝试实现一个简单的Flume HDFS接收器,它将从Kafka通道获取事件,并将它们作为文本文件写入HDFS。 建筑非常简单。这些事件从twitter流式传输到kafka主题,flume hdfs sink确实会将这些事件写入hdfs。这是Kafka-制片人斯塔科弗洛问题的第二部分。 当我执行这个命令时没有出现错误,看起来运行得很好,但是我看不到hdfs中的文本文件。我无法调试或调查,因为在
我有一个用例,我想使用flume将远程文件复制到hdfs中。我还希望复制的文件应与HDFS块大小(128MB/256MB)对齐。远程数据的总大小为33GB。 我使用avro源和接收器将远程数据复制到hdfs中。类似地,在接收端,我正在进行文件大小滚动(128,256)。但是从远程机器复制文件并存储到hdfs(文件大小128/256 MB)中,flume平均需要2分钟。 水槽配置:阿夫罗源(远程机器
某些HDFS接收器文件未关闭 有人说,如果接收器进程因超时条件等问题而失败,它不会再次尝试关闭文件。 我已经查看了水槽日志文件,但没有错误。然而,日志文件显示,每个周期,flume生成两个tmp文件,只关闭一个tmp。。。 对于配置的任何建议将不胜感激!谢谢!
我想将数据从高音扬声器流式传输到hdfs,我使用了以下命令:./bin/Flume-ng代理-n TwitterAgent-c conf-f /usr/lib/apache-flume-1.4.0-bin/conf/flume.conf 我不能得到我期望的结果。没有数据流。 谁有linus命令可以将数据从tweeter传输到hdfs?
我已经为我的应用程序配置了水槽代理,其中源是Spooldir,接收器是HDFS 我能够在hdfs中收集文件。 代理配置为: 我有以下格式的hdfs文件: /flume/events/file1.txt。1411543838171/水槽/事件/文件2.txt.1411544272696 我想知道我可以删除时间戳(1411543838171) /唯一号码,这是自动生成的每个事件的文件名?
我用的是Flume 1.7.0和HDFS水槽。我将Flume配置为将数据放在HDFS的日期目录中,这样当新的一天到来时,它会自动更改目录。问题是我把flume设置为按文件大小(240MB)滚动,但是flume离开了。tmp文件,当目录改变时。似乎flume改变到新的一天的目录,而没有关闭未完成的文件(小于240MB)。 例如。如果我启动3个水槽代理。然后当水槽代理更改为新目录20180411时,目
由于一个我无法摆脱的错误,我无法使用Flume将Twitter数据拉入HDFS。 命令: 控制台: flume-env.sh:我手动将flume-sources-1.0-SNAPSHOT.jar添加到flume/lib中。 twitter.conf: 操作系统:Ubuntu Flume:v1.9.0 Hadoop:v3.3.0
我按照设置TwitterSource和HDFS汇的链接。 用于启动代理的命令: 我成功地做到了这一点,但现在有一个问题。在停止flume代理之前,输出不会被写入。一旦我杀了我的水槽代理,它就会被写到HDFS。 我有两个问题: 1)如何停止水槽剂 - 除了做CTRL C之外,还有其他方法吗? 2)我能让flume-agent在移动中向HDFS写信,而不必杀死代理吗? 注意:终止进程后,写入的文件。t
我使用的是Ubuntu 14.04,我的配置文件如下: 我正在我的终端上使用以下命令: 我收到以下错误: Apache Flume和Apache Hadoop的版本有兼容性问题吗?我没有找到任何可以帮助我安装Apache Flume 1 . 5 . 1版的好资源。如果没有兼容性问题,那么我应该如何在我的HDFS中获取tweets?
我有一个假脱机目录,所有json文件都在其中,每秒钟都会有传入的文件被添加到这个目录中,我必须反序列化传入的json文件,获取requires字段并将其附加到HDFS目录中。 我所做的是我创建了一个 flume conf 文件,其中将假脱机目录中的文件作为源,并使用 1 个接收器将 json 文件直接放入 HDFS 中。 我必须在Sink之前将这个json转换成结构化格式,并将其放入HDFS。最重
我有 kafka 集群,它从生产者那里接收 avro 事件。 我想使用flume来消费这些事件并将它们作为avro文件放在HDFS中 水槽可以吗? 有没有人有一个配置文件的例子来演示如何做? Yosi
我想使用 flume 将数据从 hdfs 目录传输到 hdfs 中的目录,在此传输中,我想应用处理形态线。 例如:我的来源是 我的水槽是 有水槽可能吗? 如果是,源水槽的类型是什么?
我遇到了Flume的问题(Cloudera CDH 5.3上的1.5): 我想做的是:每5分钟,大约20个文件被推送到假脱机目录(从远程存储中抓取)。每个文件包含多行,每行是一个日志(在JSON中)。文件大小在10KB到1MB之间。 当我启动代理时,所有文件都被成功推送到HDFS。1分钟后(这是我在flume.conf中设置的),文件被滚动(删除. tmp后缀并关闭)。 但是,当在假脱机目录中找到