当前位置: 首页 > 知识库问答 >
问题:

使用本地文件系统作为Flume源

蒋栋
2023-03-14

我刚刚开始学习大数据,目前,我正在研究Flume。我遇到的常见例子是使用一些Java处理推文(Cloudera的例子)。

仅仅为了测试和模拟的目的,我可以使用我的本地文件系统作为Flume源代码吗?特别是一些Excel或CSV文件?除了Flume配置文件,我还需要使用一些Java代码吗,就像在推特提取中一样?

这个源是事件驱动的还是可轮询的?

感谢您的意见。

共有1个答案

郏经纬
2023-03-14

我假设您正在使用cloudera沙盒,并且正在讨论将文件放在您计划启动的水槽代理的本地沙盒上。水槽代理包含:

源信道接收器

这些应该位于水槽代理的本地。可用水槽源的列表在用户指南上:https://flume.apache.org/FlumeUserGuide.html.如果您只想从带有尾部或cat命令的文件中流式传输数据,您可以使用Exec源。您也可以使用假脱机目录源将监视新文件的指定目录,并在新文件出现时将事件解析出来。好好阅读用户指南。包含您需要的一切。

 类似资料:
  • 引言 我们将在本文分析iOS的文件系统,了解其目录是如何组织的,查看一些重要的文件,然后看看如何才能够从数据库文件和plist文件导出数据。我们将学习应用是如何在特定目录(沙盒)内存放数据的,以及怎样才能提取这些数据。 有一个很重要的事情需要注意,在前面的文章中,我们都是以root身份登录进设备的。设备上有另一个用户名叫mobile, 一个mobile用户拥有的权限是少于root用户的。除了Cyd

  • 我已经在Ubuntu 14.04上安装了hadoop。每当我将文件从本地文件系统复制到HDFS时,我都会出现以下错误。 我使用这个命令: 我遇到的错误是: 我是Linux环境的新手。我不明白哪个文件不存在。

  • 这使我感到困惑,因此我的问题是: 在PutHDFS中,我链接到HDFS集群的配置单元站点和核心站点(我尝试更新所有服务器引用到HDFS namenode,但没有效果) 我不在HDFS集群上使用Kerberos(我在NIFI集群上使用它) 我在NIFI应用程序日志中没有看到任何类似错误的东西(这是有意义的,因为它成功地写入了错误的位置) 这两个集群都是使用CloudBreak在Amazon AWS上

  • 我的本地文件系统中有日志文件,需要通过Apache Flume传输到HDFS。我在主目录中将以下配置文件另存为net.conf 在主目录中运行命令后 我得到了以下输出:

  • 问题内容: 我有使用Spark生成的RDD。现在,如果我将此RDD写入csv文件,则可以使用“ saveAsTextFile()”之类的一些方法,该方法将csv文件输出到HDFS。 我想将文件写入本地文件系统,以便我的SSIS进程可以从系统中选择文件并将它们加载到DB中。 我目前无法使用sqoop。 除了编写Shell脚本之外,Java中是否还有其他地方可以做到这一点? 需要任何清晰度,请告知。

  • 前言 准备了很久,找了好多天资料,还不知道应该如何动笔写:因为担心拿捏不住,所以一方面继续查找资料,一方面思考如何来写。作为《Shell编程范例》的一部分,希望它能够很好地帮助 Shell 程序员理解如何用 Shell 命令来完成和 Linux 系统关系非常大的文件系统的各种操作,希望让 Shell 程序员中对文件系统"混沌"的状态从此消失,希望文件系统以一种更为清晰的样子呈现在眼前。 文件系统在