当前位置：首页 > 面试题库 >

为什么要用flume导入hdfs，hdfs的构架是怎样的

慕和惬

2023-03-14

本文向大家介绍为什么要用flume导入hdfs，hdfs的构架是怎样的相关面试题，主要包含被问及为什么要用flume导入hdfs，hdfs的构架是怎样的时的应答技巧和注意事项，需要的朋友参考一下

flume可以实时的导入数据到hdfs中，当hdfs上的文件达到一个指定大小的时候会形成一个文件，或者超过指定时间的话也形成一个文件

文件都是存储在datanode上面的，namenode记录着datanode的元数据信息，而namenode的元数据信息是存在内存中的，所以当文件切片很小或者很多的时候会卡死

类似资料：

Hadoop概述/HDFS/HDFS架构与设计/HDFS架构与设计

引言 Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数
Flume不适用于HDFS

我用两个节点设置水槽。我想将数据从slave01加载到hdfs。slave01:示例配置属性 master:示例配置属性然后我运行一个shell脚本：如下所示：启动 flume： flume-ng agent --conf conf conf --conf-file example-conf.properties --name agent -dflume.root.logger=DEBUG，c
Apache Flume Hdfs水槽

我们可以为HDFS Sink添加分隔符吗？写入文件时，我们如何添加记录分隔符？以下是配置：-
使用Flume将CSV文件写入HDFS

我正在使用Flume从我的本地文件系统写一些CSV文件到HDFS。我想知道HDFS水槽的最佳配置是什么，这样本地系统上的每个文件都会在HDFS以CSV格式准确复制。我希望Flume处理的每个CSV文件都是单个事件，作为单个文件刷新和写入。尽可能多地，我希望文件是完全一样的，没有标题的东西等。我需要在这些值上加什么来模拟我想要的行为？如果还有其他Flume代理配置变量需要更改，请提供。如果这
Hadoop上的HDFS位置是什么？

问题内容：在遵循一些在线教程之后，我试图在Hadoop中运行WordCount示例。但是，我不清楚，因为执行以下命令时文件将从本地文件系统复制到HDFS。当我执行以下命令时，我在HDFS上看不到我的python-tutorial.pdf。这让我感到困惑。我已经在core-site.xml中指定了“ myhadoop-tmp”目录。我以为该目录将成为用于存储所有输入文件的HDFS目录。如果不
使用Flume将日志文件写入HDFS

在HDFS中写入日志文件的最佳方式是什么？我正在尝试配置Apache Flume，并尝试配置能够为我提供数据可靠性的源。我试图配置“exec”，后来也查看了“spooldir”，但flume.apache上的以下文档。org对我的意图表示怀疑- 执行来源：最常请求的功能之一是像“tail -F file_name”这样的用例，其中应用程序写入磁盘上的日志文件，Flume 尾随文件，将每一行作为事

为什么要用flume导入hdfs，hdfs的构架是怎样的

相关阅读

相关文章

相关问答

相关工具

相关文档