我正在尝试将数据从kafka(最终我们将使用在不同实例上运行的kafka)发送到hdfs。我认为水槽或某种摄取协议是必要的,以将数据输入hdfs。所以我们使用Cloudera的水槽服务和hdfs。 这是我的水槽配置文件。另一个conf文件为空 当我启动一个 kafka 消费者时,它可以在 localhost:2181 上很好地从 kafka 生产者那里获取消息。但是我没有看到水槽代理的任何错误,也
由于我不允许在生产服务器上设置 Flume,因此我必须下载日志,将它们放入 Flume spoolDir 中,并有一个接收器可以从通道中使用并写入 Cassandra。一切正常。 然而,由于我在spolDir中有很多日志文件,并且当前设置一次只处理1个文件,这需要一段时间。我希望能够同时处理许多文件。我想到的一种方法是使用spolDir,但将文件分发到5-10个不同的目录中,并定义多个源/通道/接
我正在从事大数据项目。我们正在使用水槽将文件从sftp下载到HDFS。然后,我们配置了3个代理。他们从同一个来源读取。因此,我们将3个重复的文件放入HDFS,这不好。然而,我们必须只有一个文件。然而,我们需要为处理过的文件保持可追溯性,并管理代理之间的并发。例如,我们有3个主要代理A1、A2和A3。如果一个文件xxx.csv由代理A2处理或正在处理中。其他人不会处理它,会寻找未处理的文件。因此,每
下午好,我在增加Flume的堆大小时遇到了麻烦。结果,我得到: 我增加了“flume-env.sh”和Hadoop/Yarn中定义的堆。运气不好。 有一点要注意,在启动水槽时,Exec(进程构建器?)似乎将堆定义为20Mb。关于如何覆盖它有什么想法吗? 最终,我尝试将Heapsize设置为1512MB。
我正在尝试使用hdfs水槽运行水槽。hdfs在不同的机器上正常运行,我甚至可以与水槽机器上的hdfs交互,但是当我运行水槽并向其发送事件时,我收到以下错误: 同样,一致性不是问题,因为我可以使用hadoop命令行与hdfs交互(水槽机不是datanode)。最奇怪的是,在杀死水槽后,我可以看到tmp文件是在hdfs中创建的,但它是空的(扩展名仍然是. tmp)。 关于为什么会发生这种情况的任何想法
我尝试每5分钟用其他事件刷新. tmp文件,我的源代码很慢,需要30分钟才能在我的hdfs接收器中获取128MB文件。 flume hdfs接收器中是否有任何属性,我可以在将.tmp文件滚动到hdfs之前控制该文件的刷新率。 我需要它使用. tmp文件中的hive表查看HDFS中的数据。 目前我正在查看来自的数据。tmp文件,但是。由于卷大小为128MB,tmp文件长时间不刷新。
我正在尝试实现一个简单的Flume HDFS接收器,它将从Kafka通道获取事件,并将它们作为文本文件写入HDFS。 建筑非常简单。这些事件从twitter流式传输到kafka主题,flume hdfs sink确实会将这些事件写入hdfs。这是Kafka-制片人斯塔科弗洛问题的第二部分。 当我执行这个命令时没有出现错误,看起来运行得很好,但是我看不到hdfs中的文本文件。我无法调试或调查,因为在
我刚刚开始研究使用hdfs接收器向hdfs写入消息的水槽。我想知道水槽源是否可以充当我的消息代理的jms消费者。 flume是否提供与消息代理的集成。或者我是否需要编写一个自定义jms客户端,将消息推送到水槽源。
我的项目有一个要求。我必须使用水槽收集日志数据,并且必须将数据输入到hive表中。 在这里,我需要将放置在文件夹中的文件收集到hdfs中,我正在使用Spooldir进行。在此之后,我需要处理这些文件并将输出放在hive文件夹中,以便立即查询数据。 我是否可以使用 sink 处理源文件,使放置在 hdfs 中的数据已经处理为所需的格式。? 谢了,萨希
我想使用水槽代理并根据定义的函数拆分身体的数据,并将身体数据的一部分发送到一个接收器,另一部分发送到另一个接收器。 我是否需要为此实现自定义拦截器,或者是否有我错过阅读Flume用户指南的默认解决方案?
我已经为我的应用程序配置了水槽代理,其中源是Spooldir,接收器是HDFS 我能够在hdfs中收集文件。 代理配置为: 我有以下格式的hdfs文件: /flume/events/file1.txt。1411543838171/水槽/事件/文件2.txt.1411544272696 我想知道我可以删除时间戳(1411543838171) /唯一号码,这是自动生成的每个事件的文件名?
我正在使用Spool Directory作为源,HDFS作为接收器,文件作为通道。当执行水槽作业时。我得到了以下问题。内存通道工作正常。但是我们需要使用文件通道实现相同的功能。使用文件通道我得到了以下问题。 我已经在flume.env中将JVM内存大小配置为3GB。sh文件。请让我知道我们需要做的任何其他设置。 2016年1月20日20:05:27099错误[SinkRunnerPollingRu
由于源和汇之间的速度差距,我正在测试水槽将数据加载到hHase中,并考虑使用水槽的选择器和控制器并行加载数据。 所以,我想用水槽做的是 > 使用拦截器的regex_extractor类型创建事件的标头 使用选择器的复用类型将带有标头的事件复用到两个以上的通道 在一个源-通道-接收器中。 并尝试如下配置。 但是,它不起作用! 当选择器部分被删除时,flume的日志中会出现一些拦截器调试消息。但是当选
我正在尝试将 Websphere (IBM) MQ 与 flume 集成。我有几个来自MQ的xml文件 我正在AWS EC2实例上进行此集成,其中也安装了我的Hadoop。以下是我遵循的集成步骤。 创建队列管理器:https://www.ibm.com/support/knowledgecenter/SSFKSJ_7.5.0/com.ibm.mq.con.doc/q015210_.htm ./cr
我正在尝试将日志从单台机器上的不同目录收集到本地文件系统文件或 HDFS。 我已经注册了 2 个来源 r1、r2。两个源都指向单通道C1。有一个接收器连接到通道。K1 请找到下面的配置文件: 但是当我使用代理 a1 启动 Flume 时,只有一个源 (r2) 正在启动。水槽代理启动日志: 谢谢