当前位置：首页 > 专题 >

《HDFS》专题

Flume ng/Avro源、内存通道和HDFS接收器-小文件太多
我面临一个奇怪的问题。我正在寻找从水槽到HDFS的大量信息。我应用了推荐的配置，以避免过多的小文件，但它不起作用。这是我的配置文件。这个配置有效，我看到了我的文件。但文件的平均重量为1.5kb。水槽控制台输出提供了此类信息。有人知道这个问题吗？以下是有关水槽行为的一些信息。该命令是flumengagent-na1-c/path/to/flume/conf-conf文件示例flume。con
使用水槽将数据从kafka主题导入到hdfs文件夹
我正在使用水槽从kafka主题HDFS文件夹加载消息。所以，我创建了一个主题 TT 我通过Kafka控制台制作人向 TT 发送了消息我配置了水槽代理 FF 运行 flume agent flume-ng agent -n FF -c conf -f flume.conf - Dflume.root.logger=INFO，console 代码执行停止，没有错误，并且不会向 HDFS 写入任何内
向hdfs收集在线数据时的水槽损失数据
我使用flume-ng 1.5版本来收集日志。数据流中有两个代理，它们分别位于两个主机上。数据从代理1发送到代理2。代理的组件如下：代理1:假脱机目录源- 代理2: avro源- 但是它似乎丢失了大约百万数据千分之一的数据。为了解决问题，我尝试了以下步骤：查找代理日志：找不到任何错误或异常。查找代理监视指标：从通道中放置和获取的事件数始终相等按Hive查询和HDFS文件使用shell
水槽加载csv文件Excels到hdfs接收器
我已将Flume源配置为Spooldir类型。我有很多CSV文件，.xl3和.xls，我希望我的Flume代理将所有文件从假脱机程序加载到HDFS接收器。然而，水槽代理返回异常这是我对水槽源的配置：和我的HDFS接收器：
Flume - 在 Linux 中将日志文件从 Windows 流式传输到 HDFS
如何将日志文件从Windows 7传输到Linux中的HDFS？ Windows中的水槽出现错误我已经在Windows 7（节点1）上安装了“flume-node-0.9.3”。“flumenode”服务正在运行，localhost:35862可以访问在Windows中，日志文件位于“C:/logs/Weblogic”。log' CentOS Linux（节点2）中的Flume代理也在运行。
通过flume将事件数据写入HDFS时出错
我使用cdh3 update 4 tarball进行开发。我已经安装并运行了hadoop。现在，我还从cloudera viz 1.1.0下载了等效的flume tarball，并尝试使用hdfs-sink将日志文件的尾部写入hdfs。当我运行flume代理时，它开始正常，但当它试图将新的事件数据写入hdfs时，却以错误结束。我找不到比stackoverflow更好的小组来发布这个问题。这是我正在
只有一个文件从kafka到hdfs与水槽
我正在尝试通过水槽从kafka将数据放入hdfs中。kafka_producer每10秒发送一条消息。我想在hdfs上的一个文件中收集所有消息。这是我使用的水槽配置，但它在hdfs上存储了许多文件（一个用于消息）：附言我从一个文件开始.csv。kafka 生产者获取文件并选择一些感兴趣的字段，然后每 10 秒发送一个条目。Flume将条目存储在Hadoophdfs上，但存储在许多文件中（1个条目
在哪里运行写入 HDFS 的水槽代理？
我有25-20个代理将数据发送给几个收集代理，然后这些收集代理必须将数据写入HDFS。在哪里运行这些收集器代理？在Hadoop集群的Data节点上还是集群外？每种方法的优点/缺点是什么？人们目前是如何运行它们的？
水槽HDFS-200追加
https://cwiki.apache.org/confluence/display/FLUME/Getting 开始的页面说 HDFS sink 支持追加，但我无法找到有关如何启用它的任何信息，每个示例都在滚动文件上。因此，如果可能的话，我将不胜感激有关如何将水槽附加到现有文件的任何信息）使现代化可以将所有滚动属性设置为0，这将使flume写入单个文件，但它不会关闭文件，新记录对其他进程不
带有Flume的HDFS IO错误(hadoop 2.8)
当我尝试通过Flume将流数据输入hadoop时，我收到以下错误。我已经在flume/lib中创建了指向< code >的链接。hadoop/share/hadoop/中的jar文件我仔细检查了URL，我认为它们都是正确的。想发帖子来获得更多的关注和反馈。这是水槽水槽配置核心网站. xml - Hadoop 2.8
Apache Flume Hdfs水槽
我们可以为HDFS Sink添加分隔符吗？写入文件时，我们如何添加记录分隔符？以下是配置：-
使用水槽将文件从假脱机目录移动到HDFS
我正在为我公司的 POC 实施一个小型 hadoop 集群。我正在尝试使用Flume将文件导入HDFS。每个文件都包含如下 JSON 对象（每个文件 1 个“长”行）： “objectType”是数组中对象的类型（例如：事件、用户…）。这些文件稍后将由多个任务根据“对象类型”进行处理。我正在使用spoolDir源和HDFS接收器。我的问题是： > 当flume写入HDFS时，是否可以保留源文
如何使水槽加载文件到HDFS，HDFS从不关闭文件.tmp并按名称重命名文件。
实际上我有两个问题，我的第一个问题是：在整个文件被水槽代理刷新后，如何使HDFS关闭文件（例如。123456789.tmp）。事实上，直到我强制水槽代理停止，文件才会关闭。我相信有一种使用以下4个参数的方法：我的第二个问题是，我的代理flume从SFTP服务器接收文件，而我需要将每个文件名保存在hdfs中。它适用于spooldir类型，但不适用于SFTP！!有什么想法吗？我的水槽代理配置文件如
需要帮助调试带有水槽的kafka源到hdfs接收器
我正在尝试将数据从kafka（最终我们将使用在不同实例上运行的kafka）发送到hdfs。我认为水槽或某种摄取协议是必要的，以将数据输入hdfs。所以我们使用Cloudera的水槽服务和hdfs。这是我的水槽配置文件。另一个conf文件为空当我启动一个 kafka 消费者时，它可以在 localhost：2181 上很好地从 kafka 生产者那里获取消息。但是我没有看到水槽代理的任何错误，也
配置Flume以从Twitter收集数据到HDFS中
我一整天都在不断收到这个日志信息。 2016-10-12 21:32:05，696(conf-file-poller-0)[DEBUG-org . Apache . FLUME . node . pollingpropertiesfileconfigurationprovider $ filewatcherrunnable . run(pollingpropertiesfileconfigurat

首页

10

11

12

13

14

15

16

17

18

尾页

最新发布

百度数据开发实习面经雷克沙测开二面上海百考丝信息科技有限公司--java面经海致科技--java面经京东Java一二面面经

推荐文章

算法是什么 java学习路线架构师需要哪些素质？C/C++进阶路线 JavaScipt进阶之路

相关问答

python - 明明有这个文件为什么还报错？前端 - 使用 wxt 框架开发浏览器扩展遇到的问题?前端 - 你们用react-markdown做聊天的时候，内容是流不断返回的，如果有图片的话。会造成页面闪烁，因为contten不断变化，重新渲染了。怎么解决的？vue2 - vue虚拟滚动列表vue-virtual-scroller滚动卡顿的问题？前端 - uni-app打包web站点，webview在app端如何上传非媒体类型文件？

推荐题库

小牛知识库超值大礼包总结C语言和Python区别 Python和C语言优劣势对比 JWT介绍？为什么JWT可以防止篡改？HBase数据表查询操作和获取多版本数据

工具软件

minimal-light Eclipse Corrosion Shiretoko NovelHarvester Conceal KAProgressLabel nba-go chan

文档资料

gRPC 官方文档中文版 Apple Watch 人机交互指南 Ruby 用户指南 Go Web 编程 Ruby 源码解读