当前位置：首页 > 专题 >

《flume》专题

使用spool目录写入flume如何重命名文件
我正在使用Flume spool目录写入hdfs。这是我的代码但问题是写入文件的数据被重命名为某个随机的tmp名称。如何将hdfs中的文件重命名为源目录中的原始文件名。例如，我有文件day1.txt、day2.txt和day3.txt。这是两天的数据。我想将它们保存在hdfs中，分别为day1.txt、day2.txt和day3.txt。但这三个文件被合并并存储在hdfs中，作为文件。有什么办法
Flume HDFS接收器仅使用netcat源存储一行数据源
我尝试使用Flume 1.7将数据加载到HDFS中。我创建了以下配置：之后，我使用 netcat 将以下文件发送到源：该文件包含以下元素: 我面临的问题是，没有任何错误，flume正在写入hdfs，但只有一行传输的文件。如果您开始使用nectat多次将文件推送到源文件，那么有时flume会将多个文件写入hdfs，包括多个行。但很少是所有行。我试图改变hdfs参数roll大小，批量大小和其他，
Twitter Flume数据格式不可读
我的推特数据格式不可读。我使用水槽获取了推特数据，我正在尝试使用蜂巢表读取这些数据。但是我在 hdfs 中看不到正确的数据。以下是详细信息： flume-env.sh - twitter.conf- 当我少做一个文件时: 有人可以告诉我哪里出错了吗？我需要蜂巢表的可读格式的数据。
在 Apache Flume 中获取 JMS 标头
我正在尝试使用Apache Flume使用JMS消息（IBM Websphere MQ）并将数据存储到HDFS。在阅读消息时，我只能看到消息的正文，而不能看到消息的标题内容。是否可以使用Apache Flume读取带有头属性的jms消息？我的配置：
Apache Flume .tmp强制终止启动后未清理的文件
我看到了几个与此相关的问题，但不太明白我在寻找什么。我使用的是Flume 1.8.0，在Flume代理被强制终止后，我看到了.tmp文件。这些不会在水槽药剂重新启动时清理干净。有没有任何方法可以配置Flume代理来执行清理，或者这是我需要自己处理的事情（在Flume之外）？这是我测试的水槽 conf 文件：使用上面的conf文件启动Flume代理。在它向HDFS写入了几个文件后，使用杀-9杀死
使用 NGINX 将跟踪数据转发到 Flume
我正在根据我们通过简单的图像信标收集的仪器数据，为我们的网站属性提供分析。我们的数据管道从Flume开始，我需要尽可能快的方法来解析查询字符串参数，形成一条简单的文本消息并将其推入Flume。出于性能原因，我倾向于使用nginx。由于已经支持从内存提供静态映像，所以我的任务减少到处理查询字符串并将消息转发到Flume。因此，问题是： nginx和Flume集成最简单可靠的方法是什么？我在考虑使用
使用 Apache Flume 将日志从 MapReduce 作业写入 HDFS
我正在尝试将MapReduce作业中的日志写入HDFS。我使用的是Apache Flume NG。我的环境: Java 6 日志4j 1.2.16 Apache Hadoop 2.3.0 Apache水槽1.4.0 问题#1 我已经创建了简单的MapReduce作业作为Maven项目，并且在我的类中使用了作业完成后，我可以在系统日志文件中看到我的日志。我想创建自己的log4j配置并将日志写入
如何使用 Flume 在源代码上执行预处理并在 hdfs sink 中保留真实文件名
我刚开始使用Apache Flume，我很难理解它到底是如何工作的。为了解释我的问题，我解释了我的需要和我做了什么。我想在 csv 文件目录（这些文件每 5 分钟构建一次）和 HDFS 集群之间配置一个流。我发现“假脱机目录”源和HDFS接收器是我所需要的。给我这个flume.conf文件结果是输入文件被重命名为“.”。我本地文件系统上的“complete ”,数据以一个新名字上传到HDFS
Flume java.lang.IllegalStateException：文件在读取后大小已更改
我有一个java应用程序，它从不同的来源收集数据并将输出写入特定目录下的文件。我有一个水槽代理配置为使用spoldir源代码从该目录读取并使用将输出写入Solr。水槽代理引发以下异常这是水槽代理的配置我从异常中理解的是，flume代理开始处理文件，而java应用程序没有完成它的编写。如何解决此问题？我不知道这些信息是否有价值。这些配置以前可以正常工作，没有任何问题。我们运行水槽的机器遇
Apache Flume 中的 Apache Avro schema validation
在阅读了Apache Flume及其在处理客户端事件方面提供的好处之后，我决定是时候开始更详细地研究这个问题了。另一个很大的好处似乎是它可以处理Apache Avro对象:-)然而，我很难理解Avro模式是如何用来验证收到的Flume事件的。为了帮助更详细地了解我的问题，我在下面提供了代码片段；出于这篇文章的目的，我使用了一个示例模式，定义了一个包含2个字段的嵌套记录。在我的Java项目中，
Apache Flume在Twitter API SSL / TLS强制要求后停止流式传输Twitter数据。
我遵循了cloudera的教程(http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/)用于应用程序使用Apache Flume将twitter数据摄取到HDFS中。Twitter已将其api连接限制为SSL/TLS，自2014年1月15日起生效。在此更改后，我的Flume代理已停止流式传输Twitter数
Flume exec到cat文件只向hdfs接收器写入一行
我是Flume的新手。我有一个大的 CSV 文本文件，其中包含记录，每个记录的长度约为 50 个字符，CR-LF 终止了这些行。我想使用Flume将这些数据摄取到HDFS中。结果是只有文件的一行被写入HDFS（如果该线索有帮助，它是文件的第二行）。我在输出中没有看到任何错误。谢谢。详情如下。这是我的执行命令： Flume-ng代理--conf--conf文件example.conf--name
Flume不适用于HDFS
我用两个节点设置水槽。我想将数据从slave01加载到hdfs。slave01:示例配置属性 master:示例配置属性然后我运行一个shell脚本：如下所示：启动 flume： flume-ng agent --conf conf conf --conf-file example-conf.properties --name agent -dflume.root.logger=DEBUG，c
使用Flume将CSV文件写入HDFS
我正在使用Flume从我的本地文件系统写一些CSV文件到HDFS。我想知道HDFS水槽的最佳配置是什么，这样本地系统上的每个文件都会在HDFS以CSV格式准确复制。我希望Flume处理的每个CSV文件都是单个事件，作为单个文件刷新和写入。尽可能多地，我希望文件是完全一样的，没有标题的东西等。我需要在这些值上加什么来模拟我想要的行为？如果还有其他Flume代理配置变量需要更改，请提供。如果这
Flume ng/Avro源、内存通道和HDFS接收器-小文件太多
我面临一个奇怪的问题。我正在寻找从水槽到HDFS的大量信息。我应用了推荐的配置，以避免过多的小文件，但它不起作用。这是我的配置文件。这个配置有效，我看到了我的文件。但文件的平均重量为1.5kb。水槽控制台输出提供了此类信息。有人知道这个问题吗？以下是有关水槽行为的一些信息。该命令是flumengagent-na1-c/path/to/flume/conf-conf文件示例flume。con

首页

1

2

3

4

5

6

7

尾页

最新发布

百度数据开发实习面经雷克沙测开二面上海百考丝信息科技有限公司--java面经海致科技--java面经京东Java一二面面经

推荐文章

算法是什么 java学习路线架构师需要哪些素质？C/C++进阶路线 JavaScipt进阶之路

相关问答

python - 明明有这个文件为什么还报错？前端 - 使用 wxt 框架开发浏览器扩展遇到的问题?前端 - 你们用react-markdown做聊天的时候，内容是流不断返回的，如果有图片的话。会造成页面闪烁，因为contten不断变化，重新渲染了。怎么解决的？vue2 - vue虚拟滚动列表vue-virtual-scroller滚动卡顿的问题？前端 - uni-app打包web站点，webview在app端如何上传非媒体类型文件？

推荐题库

小牛知识库超值大礼包总结C语言和Python区别 Python和C语言优劣势对比 JWT介绍？为什么JWT可以防止篡改？HBase数据表查询操作和获取多版本数据

工具软件

minimal-light Eclipse Corrosion Shiretoko NovelHarvester Conceal KAProgressLabel nba-go chan

文档资料

gRPC 官方文档中文版 Apple Watch 人机交互指南 Ruby 用户指南 Go Web 编程 Ruby 源码解读