我正在从事大数据项目。我们正在使用水槽将文件从sftp下载到HDFS。然后,我们配置了3个代理。他们从同一个来源读取。因此,我们将3个重复的文件放入HDFS,这不好。然而,我们必须只有一个文件。然而,我们需要为处理过的文件保持可追溯性,并管理代理之间的并发。例如,我们有3个主要代理A1、A2和A3。如果一个文件xxx.csv由代理A2处理或正在处理中。其他人不会处理它,会寻找未处理的文件。因此,每个文件必须只由一个代理处理。
有人在处理类似的问题吗?
可以使用负载平衡接收器处理器使用一个源接收器和 3 个接收器。
我正在构建一个 Spring 启动独立应用程序,该应用程序需要使用来自远程服务器的消息并将其写入 。我正在使用Flume嵌入式代理来可靠地记录消息。但是我收到以下错误。 引起:org.apache.flume.Flume异常:组件类型的com.security.flume.sink.Sy 根据文档仅支持。这是否意味着我们甚至不能编写自定义水槽? 我对Flume相当陌生。我真的很感谢你在这个问题上的
我试图建立flume,这样每个代理可以有多个接收器,最终有多个通道和源(现在只看多个通道)。我有一个类似这样的配置文件和一个ruby模板。我不知道如何将功能添加到模板文件中,以便每个代理可以将一个事件发送到多个通道
我测试了Apache Flume将文件从本地传输到HDFS。但是,如果源文件来自多个服务器(将文件从不同服务器的本地传输到HDFS),我可以只运行一个Flume实例并将更多代理添加到Flume-conf.property中吗? 如果可以,如何在 flume-conf.properties 中编辑以下参数: 还有,我怎样才能运行水槽? 只能运行一个水槽。两个以上呢?
许多网站建议在停止水槽代理时使用kill -9。 然而,当我用kill-9停止代理时,HDFS接收器文件将永远保持打开状态(如*.tmp)。
管理开发时间,需要维护一个简明且实时更新的计划。一个工程计划是一个估计,一个时间表,一系列取得进步的里程碑,还有对你的团队或者你的时间在每个任务的估计和安排。这也应该包括你需要记得去做的其他事,比如与质量保障人员见面,准备文档,或者订购设备。如果你在一个团队里,工程计划会是一个共同承认的协议,不论是在开始,还是进行的过程中。 工程计划存在的意义是帮助做出决定,而非展示你是如何组织的。如果一个工程计
我想在我的Windows 10上安装水槽代理,以便将日志放入安装在虚拟机上的hortonworks沙盒中。我参考这个链接做了所有设置-https://gudisevablog.wordpress.com/2016/12/08/apache-flume-windows-10/但是当我运行这个时出现了一些问题 命令 - “ flume-ng agent –conf %FLUME_CONF% –conf