使用本地文件系统作为Flume源

蒋栋

2023-03-14

我刚刚开始学习大数据，目前，我正在研究Flume。我遇到的常见例子是使用一些Java处理推文（Cloudera的例子）。

仅仅为了测试和模拟的目的，我可以使用我的本地文件系统作为Flume源代码吗？特别是一些Excel或CSV文件？除了Flume配置文件，我还需要使用一些Java代码吗，就像在推特提取中一样？

这个源是事件驱动的还是可轮询的？

感谢您的意见。

共有1个答案

郏经纬

2023-03-14

我假设您正在使用cloudera沙盒，并且正在讨论将文件放在您计划启动的水槽代理的本地沙盒上。水槽代理包含：

源信道接收器

这些应该位于水槽代理的本地。可用水槽源的列表在用户指南上：https://flume.apache.org/FlumeUserGuide.html.如果您只想从带有尾部或cat命令的文件中流式传输数据，您可以使用Exec源。您也可以使用假脱机目录源将监视新文件的指定目录，并在新文件出现时将事件解析出来。好好阅读用户指南。包含您需要的一切。

类似资料：

5.1 本地文件系统取证

引言我们将在本文分析iOS的文件系统，了解其目录是如何组织的，查看一些重要的文件，然后看看如何才能够从数据库文件和plist文件导出数据。我们将学习应用是如何在特定目录（沙盒）内存放数据的，以及怎样才能提取这些数据。有一个很重要的事情需要注意，在前面的文章中，我们都是以root身份登录进设备的。设备上有另一个用户名叫mobile, 一个mobile用户拥有的权限是少于root用户的。除了Cyd
如何将文件从本地文件系统复制到HDFS文件系统？

我已经在Ubuntu 14.04上安装了hadoop。每当我将文件从本地文件系统复制到HDFS时，我都会出现以下错误。我使用这个命令：我遇到的错误是：我是Linux环境的新手。我不明白哪个文件不存在。
通过Apache Flume将日志文件从本地文件系统移动到HDFS时出错

我的本地文件系统中有日志文件，需要通过Apache Flume传输到HDFS。我在主目录中将以下配置文件另存为net.conf 在主目录中运行命令后我得到了以下输出：
nifi putHDFS写入本地文件系统

这使我感到困惑，因此我的问题是：在PutHDFS中，我链接到HDFS集群的配置单元站点和核心站点（我尝试更新所有服务器引用到HDFS namenode，但没有效果）我不在HDFS集群上使用Kerberos（我在NIFI集群上使用它）我在NIFI应用程序日志中没有看到任何类似错误的东西（这是有意义的，因为它成功地写入了错误的位置）这两个集群都是使用CloudBreak在Amazon AWS上
使用Java将Spark RDD保存到本地文件系统

问题内容：我有使用Spark生成的RDD。现在，如果我将此RDD写入csv文件，则可以使用“ saveAsTextFile（）”之类的一些方法，该方法将csv文件输出到HDFS。我想将文件写入本地文件系统，以便我的SSIS进程可以从系统中选择文件并将它们加载到DB中。我目前无法使用sqoop。除了编写Shell脚本之外，Java中是否还有其他地方可以做到这一点？需要任何清晰度，请告知。
使用本地文件作为注册中心

使用本地文件作为服务注册中心在 application.properties 中如下配置即可： com.alipay.sofa.rpc.registry.address=local:///home/admin/registry/localRegistry.reg 其中 /home/admin/registry/localRegistry.reg 就是使用的本地文件的目录。对于 windows

使用本地文件系统作为Flume源

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档