我正在使用Flume spool目录写入hdfs。这是我的代码 但问题是写入文件的数据被重命名为某个随机的tmp名称。如何将hdfs中的文件重命名为源目录中的原始文件名。例如,我有文件day1.txt、day2.txt和day3.txt。这是两天的数据。我想将它们保存在hdfs中,分别为day1.txt、day2.txt和day3.txt。但这三个文件被合并并存储在hdfs中,作为文件。有什么办法
我尝试使用Flume 1.7将数据加载到HDFS中。我创建了以下配置: 之后,我使用 netcat 将以下文件发送到源: 该文件包含以下元素: 我面临的问题是,没有任何错误,flume正在写入hdfs,但只有一行传输的文件。如果您开始使用nectat多次将文件推送到源文件,那么有时flume会将多个文件写入hdfs,包括多个行。但很少是所有行。 我试图改变hdfs参数roll大小,批量大小和其他,
我的推特数据格式不可读。我使用水槽获取了推特数据,我正在尝试使用蜂巢表读取这些数据。但是我在 hdfs 中看不到正确的数据。以下是详细信息: flume-env.sh - twitter.conf- 当我少做一个文件时: 有人可以告诉我哪里出错了吗?我需要蜂巢表的可读格式的数据。
我正在尝试使用Apache Flume使用JMS消息(IBM Websphere MQ)并将数据存储到HDFS。在阅读消息时,我只能看到消息的正文,而不能看到消息的标题内容。 是否可以使用Apache Flume读取带有头属性的jms消息? 我的配置:
我看到了几个与此相关的问题,但不太明白我在寻找什么。我使用的是Flume 1.8.0,在Flume代理被强制终止后,我看到了.tmp文件。这些不会在水槽药剂重新启动时清理干净。有没有任何方法可以配置Flume代理来执行清理,或者这是我需要自己处理的事情(在Flume之外)? 这是我测试的水槽 conf 文件: 使用上面的conf文件启动Flume代理。在它向HDFS写入了几个文件后,使用杀-9杀死
我正在根据我们通过简单的图像信标收集的仪器数据,为我们的网站属性提供分析。我们的数据管道从Flume开始,我需要尽可能快的方法来解析查询字符串参数,形成一条简单的文本消息并将其推入Flume。 出于性能原因,我倾向于使用nginx。由于已经支持从内存提供静态映像,所以我的任务减少到处理查询字符串并将消息转发到Flume。因此,问题是: nginx和Flume集成最简单可靠的方法是什么?我在考虑使用
我正在尝试将MapReduce作业中的日志写入HDFS。我使用的是Apache Flume NG。 我的环境: Java 6 日志4j 1.2.16 Apache Hadoop 2.3.0 Apache水槽1.4.0 问题#1 我已经创建了简单的MapReduce作业作为Maven项目,并且在我的类中使用了 作业完成后,我可以在系统日志文件中看到我的日志。 我想创建自己的log4j配置并将日志写入
我刚开始使用Apache Flume,我很难理解它到底是如何工作的。为了解释我的问题,我解释了我的需要和我做了什么。 我想在 csv 文件目录(这些文件每 5 分钟构建一次)和 HDFS 集群之间配置一个流。 我发现“假脱机目录”源和HDFS接收器是我所需要的。给我这个flume.conf文件 结果是输入文件被重命名为“.”。我本地文件系统上的“complete ”,数据以一个新名字上传到HDFS
我有一个java应用程序,它从不同的来源收集数据并将输出写入特定目录下的文件。 我有一个水槽代理配置为使用spoldir源代码从该目录读取并使用将输出写入Solr。 水槽代理引发以下异常 这是水槽代理的配置 我从异常中理解的是,flume代理开始处理文件,而java应用程序没有完成它的编写。 如何解决此问题? 我不知道这些信息是否有价值。这些配置以前可以正常工作,没有任何问题。我们运行水槽的机器遇
在阅读了Apache Flume及其在处理客户端事件方面提供的好处之后,我决定是时候开始更详细地研究这个问题了。另一个很大的好处似乎是它可以处理Apache Avro对象:-)然而,我很难理解Avro模式是如何用来验证收到的Flume事件的。 为了帮助更详细地了解我的问题,我在下面提供了代码片段; 出于这篇文章的目的,我使用了一个示例模式,定义了一个包含2个字段的嵌套记录。 在我的Java项目中,
我遵循了cloudera的教程(http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/)用于应用程序使用Apache Flume将twitter数据摄取到HDFS中。Twitter已将其api连接限制为SSL/TLS,自2014年1月15日起生效。在此更改后,我的Flume代理已停止流式传输Twitter数
我是Flume的新手。我有一个大的 CSV 文本文件,其中包含记录,每个记录的长度约为 50 个字符,CR-LF 终止了这些行。我想使用Flume将这些数据摄取到HDFS中。结果是只有文件的一行被写入HDFS(如果该线索有帮助,它是文件的第二行)。 我在输出中没有看到任何错误。谢谢。详情如下。 这是我的执行命令: Flume-ng代理--conf--conf文件example.conf--name
我用两个节点设置水槽。我想将数据从slave01加载到hdfs。slave01:示例配置属性 master:示例配置属性 然后我运行一个shell脚本:如下所示: 启动 flume: flume-ng agent --conf conf conf --conf-file example-conf.properties --name agent -dflume.root.logger=DEBUG,c
我正在使用Flume从我的本地文件系统写一些CSV文件到HDFS。 我想知道HDFS水槽的最佳配置是什么,这样本地系统上的每个文件都会在HDFS以CSV格式准确复制。我希望Flume处理的每个CSV文件都是单个事件,作为单个文件刷新和写入。尽可能多地,我希望文件是完全一样的,没有标题的东西等。 我需要在这些值上加什么来模拟我想要的行为? 如果还有其他Flume代理配置变量需要更改,请提供。 如果这
我面临一个奇怪的问题。我正在寻找从水槽到HDFS的大量信息。我应用了推荐的配置,以避免过多的小文件,但它不起作用。这是我的配置文件。 这个配置有效,我看到了我的文件。但文件的平均重量为1.5kb。水槽控制台输出提供了此类信息。 有人知道这个问题吗? 以下是有关水槽行为的一些信息。 该命令是flumengagent-na1-c/path/to/flume/conf-conf文件示例flume。con