当我尝试Cloudera 5.4.2时,有一个小问题。基于这篇文章 Apache Flume-获取Twitter数据http://www.tutorialspoint.com/apache_flume/fetching_twitter_data.htm 它尝试使用Flume和twitter流来获取推文,以进行数据分析。所有的事情都很开心,创建Twitter应用程序,在HDFS上创建目录,配置Flu
由于一个我无法摆脱的错误,我无法使用Flume将Twitter数据拉入HDFS。 命令: 控制台: flume-env.sh:我手动将flume-sources-1.0-SNAPSHOT.jar添加到flume/lib中。 twitter.conf: 操作系统:Ubuntu Flume:v1.9.0 Hadoop:v3.3.0
我正在尝试设置一个使用JMS作为源并使用HDFS作为接收器的水槽代理。 我遵循的步骤是 1) 由创建了.binding文件 ``` 去 /opt/mqm/java/bin/JMSAdmin- ``` 2)丢弃相关的罐子和。绑定文件在适当的位置使用以下有用的链接如何使用。将JMS绑定到HDFS的文件 3)启动flume代理只会得到以下错误消息 其中是我创建的工厂。 绑定文件类似于 我怀疑由于某种原因
我按照设置TwitterSource和HDFS汇的链接。 用于启动代理的命令: 我成功地做到了这一点,但现在有一个问题。在停止flume代理之前,输出不会被写入。一旦我杀了我的水槽代理,它就会被写到HDFS。 我有两个问题: 1)如何停止水槽剂 - 除了做CTRL C之外,还有其他方法吗? 2)我能让flume-agent在移动中向HDFS写信,而不必杀死代理吗? 注意:终止进程后,写入的文件。t
我有一个现有的 Kafka 主题和一个从那里读取并写入 HDFS 的 flume 代理。我想重新配置我的水槽代理,以便它脱离现有设置;一个 Kafka 源,文件 Channel 到 HDFS Sink,以使用 Kafka 通道。 我在cloudera文档中读到,仅使用Kafka通道和HDFS接收器(没有水槽源)就可以实现这一目标。(除非我弄错了棍子的一端。所以我尝试创建此配置,但它不起作用。它甚至
我正在尝试使用Log4J Flume appender通过Flume将事件从Log4J 1x获取到HDFS。创建了两个附加器FILE和水槽。它适用于文件附加器,但使用水槽附加器,程序只是挂在Eclipse中。Flume工作正常,我能够使用avro客户端向avro源发送消息并在HDFS中查看消息。但是,它没有与Log4J 1x集成。 我没有看到任何异常,除了下面在log.out中。 从水槽控制台 如
我使用的是Ubuntu 14.04,我的配置文件如下: 我正在我的终端上使用以下命令: 我收到以下错误: Apache Flume和Apache Hadoop的版本有兼容性问题吗?我没有找到任何可以帮助我安装Apache Flume 1 . 5 . 1版的好资源。如果没有兼容性问题,那么我应该如何在我的HDFS中获取tweets?
在HDFS中写入日志文件的最佳方式是什么?我正在尝试配置Apache Flume,并尝试配置能够为我提供数据可靠性的源。我试图配置“exec”,后来也查看了“spooldir”,但flume.apache上的以下文档。org对我的意图表示怀疑- 执行来源: 最常请求的功能之一是像“tail -F file_name”这样的用例,其中应用程序写入磁盘上的日志文件,Flume 尾随文件,将每一行作为事
我使用的是flume的纯节点(测试)模式;我的水槽以如下方式启动: 水槽节点-1-c$FQDN':amqp(“exchangeName=[exchange name]”,“bindings=[binding name]””,“host=127.0.0.1”,“port=5672”,“userName=[user]”,”password=[pass]“,”exchangeType=direct“,”
我正在尝试使用Flume-ng获取90秒的日志信息,并将其放入HDFS的一个文件中。我让flume通过exec和tail查看日志文件,但是它每5秒创建一个文件,而不是我试图配置为每90秒创建一个文件。 我的flume.conf如下: 我试图通过参数-agent1.sinks.sink1.hdfs.rollInterval=90来控制文件大小。 运行此配置会产生: 从时间戳可以看出,它大约每5秒钟创
我有一个程序,它每分钟运行一次,并使用STRACE命令同时生成多个日志文件。例如,在第一次运行中-它可能会开始跟踪10个进程,日志文件名为唯一的PIDS,这将一直运行,直到整个跟踪完成。同时,第二次运行将开始,它可能会开始跟踪更多的进程ID。现在我想使用flume将所有这些STRACE日志连续流式传输到另一台服务器。我尝试使用假脱机,但由于我有多个动态实时文件,所以这是一个糟糕的选择。我曾想过使用
我有Flume Avro水槽和SparkStreams程序来读取水槽。CDH 5.1、Flume 1.5.0、Spark 1.0,使用Scala作为Spark上的程序lang 我能够制作Spark示例并计算Flume Avro事件。 但是我无法将 Flume Avro 事件反序列化为字符串\文本,然后解析结构行。 有人能举例说明如何使用Scala做到这一点吗?
我正在学习Apache Flume,但有些东西我不懂。当源/接收器类型为avro时,这是否意味着事件以avro格式发送? 也就是说,我的数据被封装到水槽事件中,并以 avro 格式从接收器发送到源。文档说: Flume事件被定义为具有字节有效载荷和可选字符串属性集的数据流单元。Flume代理是一个(JVM)进程,它托管组件,事件通过这些组件从外部源流到下一个目标(跳)。 这是否意味着在流的顶部有一
尝试运行水槽作业时,我收到下面给出的错误。我正在云时代设置上运行它。 Kafka是来源 Morphline用作拦截器,从中创建avro记录 接收器为HDFS 完全相同的文件(morphline,avro schema等。水槽配置)。但是在另一个环境中,它会抛出这个错误。 我能够在水槽上找到相关代码:https://github.com/apache/flume/blob/trunk/flume-n
我正在尝试使用Apache Flume将推文保存到HDFS。我目前在Hadoop和Flume中使用Cloudera图像。我在Cloudera的博客上学习教程,但我无法连接到Twitter API。 我收到以下错误: 我已经将我的twitter API凭证复制到flume.conf中(我已经在光盘和web用户界面上进行了尝试)。我也曾试图重新生成它们,并复制那些新的,但这对我没有帮助。 我的pom。