当前位置：首页 > 专题 >

《吐槽》专题

需要帮助调试带有水槽的kafka源到hdfs接收器
我正在尝试将数据从kafka（最终我们将使用在不同实例上运行的kafka）发送到hdfs。我认为水槽或某种摄取协议是必要的，以将数据输入hdfs。所以我们使用Cloudera的水槽服务和hdfs。这是我的水槽配置文件。另一个conf文件为空当我启动一个 kafka 消费者时，它可以在 localhost：2181 上很好地从 kafka 生产者那里获取消息。但是我没有看到水槽代理的任何错误，也
并行读取水槽线轴目录
由于我不允许在生产服务器上设置 Flume，因此我必须下载日志，将它们放入 Flume spoolDir 中，并有一个接收器可以从通道中使用并写入 Cassandra。一切正常。然而，由于我在spolDir中有很多日志文件，并且当前设置一次只处理1个文件，这需要一段时间。我希望能够同时处理许多文件。我想到的一种方法是使用spolDir，但将文件分发到5-10个不同的目录中，并定义多个源/通道/接
如何管理水槽代理之间的并发性。
我正在从事大数据项目。我们正在使用水槽将文件从sftp下载到HDFS。然后，我们配置了3个代理。他们从同一个来源读取。因此，我们将3个重复的文件放入HDFS，这不好。然而，我们必须只有一个文件。然而，我们需要为处理过的文件保持可追溯性，并管理代理之间的并发。例如，我们有3个主要代理A1、A2和A3。如果一个文件xxx.csv由代理A2处理或正在处理中。其他人不会处理它，会寻找未处理的文件。因此，每
增加水槽MaxHeap
下午好，我在增加Flume的堆大小时遇到了麻烦。结果，我得到：我增加了“flume-env.sh”和Hadoop/Yarn中定义的堆。运气不好。有一点要注意，在启动水槽时，Exec（进程构建器？）似乎将堆定义为20Mb。关于如何覆盖它有什么想法吗？最终，我尝试将Heapsize设置为1512MB。
水槽和远程hdfs水槽出错
我正在尝试使用hdfs水槽运行水槽。hdfs在不同的机器上正常运行，我甚至可以与水槽机器上的hdfs交互，但是当我运行水槽并向其发送事件时，我收到以下错误：同样，一致性不是问题，因为我可以使用hadoop命令行与hdfs交互（水槽机不是datanode）。最奇怪的是，在杀死水槽后，我可以看到tmp文件是在hdfs中创建的，但它是空的（扩展名仍然是. tmp）。关于为什么会发生这种情况的任何想法
水槽-ng hdfs水槽。文件刷新率控制属性
我尝试每5分钟用其他事件刷新. tmp文件，我的源代码很慢，需要30分钟才能在我的hdfs接收器中获取128MB文件。 flume hdfs接收器中是否有任何属性，我可以在将.tmp文件滚动到hdfs之前控制该文件的刷新率。我需要它使用. tmp文件中的hive表查看HDFS中的数据。目前我正在查看来自的数据。tmp文件，但是。由于卷大小为128MB，tmp文件长时间不刷新。
Flume HDFS水槽没有从Kafka频道创建HDFS文件
我正在尝试实现一个简单的Flume HDFS接收器，它将从Kafka通道获取事件，并将它们作为文本文件写入HDFS。建筑非常简单。这些事件从twitter流式传输到kafka主题，flume hdfs sink确实会将这些事件写入hdfs。这是Kafka-制片人斯塔科弗洛问题的第二部分。当我执行这个命令时没有出现错误，看起来运行得很好，但是我看不到hdfs中的文本文件。我无法调试或调查，因为在
水槽源可以充当jms消费者吗
我刚刚开始研究使用hdfs接收器向hdfs写入消息的水槽。我想知道水槽源是否可以充当我的消息代理的jms消费者。 flume是否提供与消息代理的集成。或者我是否需要编写一个自定义jms客户端，将消息推送到水槽源。
使用水槽将数据记录到水槽所需的格式
我的项目有一个要求。我必须使用水槽收集日志数据，并且必须将数据输入到hive表中。在这里，我需要将放置在文件夹中的文件收集到hdfs中，我正在使用Spooldir进行。在此之后，我需要处理这些文件并将输出放在hive文件夹中，以便立即查询数据。我是否可以使用 sink 处理源文件，使放置在 hdfs 中的数据已经处理为所需的格式。？谢了，萨希
如何使用水槽将身体中的数据拆分为不同的通道？
我想使用水槽代理并根据定义的函数拆分身体的数据，并将身体数据的一部分发送到一个接收器，另一部分发送到另一个接收器。我是否需要为此实现自定义拦截器，或者是否有我错过阅读Flume用户指南的默认解决方案？
水槽HDFS接收器:从文件名中删除时间戳
我已经为我的应用程序配置了水槽代理，其中源是Spooldir，接收器是HDFS 我能够在hdfs中收集文件。代理配置为：我有以下格式的hdfs文件： /flume/events/file1.txt。1411543838171/水槽/事件/文件2.txt.1411544272696 我想知道我可以删除时间戳(1411543838171) /唯一号码，这是自动生成的每个事件的文件名？
使用文件通道在水槽中耗尽可用空间
我正在使用Spool Directory作为源，HDFS作为接收器，文件作为通道。当执行水槽作业时。我得到了以下问题。内存通道工作正常。但是我们需要使用文件通道实现相同的功能。使用文件通道我得到了以下问题。我已经在flume.env中将JVM内存大小配置为3GB。sh文件。请让我知道我们需要做的任何其他设置。 2016年1月20日20:05:27099错误[SinkRunnerPollingRu
如何在水槽中同时使用regex_extractor选择器和多路复用拦截器？
由于源和汇之间的速度差距，我正在测试水槽将数据加载到hHase中，并考虑使用水槽的选择器和控制器并行加载数据。所以，我想用水槽做的是 > 使用拦截器的regex_extractor类型创建事件的标头使用选择器的复用类型将带有标头的事件复用到两个以上的通道在一个源-通道-接收器中。并尝试如下配置。但是，它不起作用！当选择器部分被删除时，flume的日志中会出现一些拦截器调试消息。但是当选
WebSphere MQ与水槽集成
我正在尝试将 Websphere （IBM） MQ 与 flume 集成。我有几个来自MQ的xml文件我正在AWS EC2实例上进行此集成，其中也安装了我的Hadoop。以下是我遵循的集成步骤。创建队列管理器：https://www.ibm.com/support/knowledgecenter/SSFKSJ_7.5.0/com.ibm.mq.con.doc/q015210_.htm ./cr
水槽：多个来源将原木添加到单个水槽
我正在尝试将日志从单台机器上的不同目录收集到本地文件系统文件或 HDFS。我已经注册了 2 个来源 r1、r2。两个源都指向单通道C1。有一个接收器连接到通道。K1 请找到下面的配置文件: 但是当我使用代理 a1 启动 Flume 时，只有一个源（r2）正在启动。水槽代理启动日志：谢谢

首页

14

15

16

17

18

19

20

21

22

尾页

最新发布

影石360 AI平台开发一面手子感谢信山东移动一面面经 PDD四面面经不鸣科技 - ai工程师一面抑郁经验

推荐文章

算法是什么 java学习路线架构师需要哪些素质？C/C++进阶路线 JavaScipt进阶之路

相关问答

30. 串联所有单词的子串 c++自己解答无法通过,可以帮我看看代码错在哪里吗？web - 在Deepin23系统中设置虚拟域名，但在浏览器中无法访问？amh - 7.2版本的集中管理服务器列表非常不方便可以优化一下么？javascript - vue input 文件上传为什么@change不触发？vue.js - Vuetify 框架怎么查看有哪些CSS 类名，如何查询？

推荐题库

小牛知识库超值大礼包总结C语言和Python区别 Python和C语言优劣势对比 JWT介绍？为什么JWT可以防止篡改？HBase数据表查询操作和获取多版本数据

工具软件

XMMultiSelectView JEECG Multiavatar OneVideo Habitica 猪齿鱼 Choerodon jekyll-dash Gudong

文档资料

Internet Explorer 维护帮助手册 Spring Boot 中文教程廖雪峰 JavaScript 教程 Canvas 实操教程 F-Secure Policy Manager - 管理员指南 v13.10