当前位置：首页 > 专题 >

《HDFS》专题

水槽和远程hdfs水槽出错
我正在尝试使用hdfs水槽运行水槽。hdfs在不同的机器上正常运行，我甚至可以与水槽机器上的hdfs交互，但是当我运行水槽并向其发送事件时，我收到以下错误：同样，一致性不是问题，因为我可以使用hadoop命令行与hdfs交互（水槽机不是datanode）。最奇怪的是，在杀死水槽后，我可以看到tmp文件是在hdfs中创建的，但它是空的（扩展名仍然是. tmp）。关于为什么会发生这种情况的任何想法
水槽-ng hdfs水槽。文件刷新率控制属性
我尝试每5分钟用其他事件刷新. tmp文件，我的源代码很慢，需要30分钟才能在我的hdfs接收器中获取128MB文件。 flume hdfs接收器中是否有任何属性，我可以在将.tmp文件滚动到hdfs之前控制该文件的刷新率。我需要它使用. tmp文件中的hive表查看HDFS中的数据。目前我正在查看来自的数据。tmp文件，但是。由于卷大小为128MB，tmp文件长时间不刷新。
Flume HDFS水槽没有从Kafka频道创建HDFS文件
我正在尝试实现一个简单的Flume HDFS接收器，它将从Kafka通道获取事件，并将它们作为文本文件写入HDFS。建筑非常简单。这些事件从twitter流式传输到kafka主题，flume hdfs sink确实会将这些事件写入hdfs。这是Kafka-制片人斯塔科弗洛问题的第二部分。当我执行这个命令时没有出现错误，看起来运行得很好，但是我看不到hdfs中的文本文件。我无法调试或调查，因为在
根据文件大小滚动时，将数据复制到 HDFS 需要时间
我有一个用例，我想使用flume将远程文件复制到hdfs中。我还希望复制的文件应与HDFS块大小（128MB/256MB）对齐。远程数据的总大小为33GB。我使用avro源和接收器将远程数据复制到hdfs中。类似地，在接收端，我正在进行文件大小滚动(128，256)。但是从远程机器复制文件并存储到hdfs(文件大小128/256 MB)中，flume平均需要2分钟。水槽配置：阿夫罗源（远程机器
Flume hdfs接收器不断制作. tmp文件
某些HDFS接收器文件未关闭有人说，如果接收器进程因超时条件等问题而失败，它不会再次尝试关闭文件。我已经查看了水槽日志文件，但没有错误。然而，日志文件显示，每个周期，flume生成两个tmp文件，只关闭一个tmp。。。对于配置的任何建议将不胜感激！谢谢！
将数据从Twitter流式传输到HDFS命令不起作用
我想将数据从高音扬声器流式传输到hdfs，我使用了以下命令：./bin/Flume-ng代理-n TwitterAgent-c conf-f /usr/lib/apache-flume-1.4.0-bin/conf/flume.conf 我不能得到我期望的结果。没有数据流。谁有linus命令可以将数据从tweeter传输到hdfs？
水槽HDFS接收器:从文件名中删除时间戳
我已经为我的应用程序配置了水槽代理，其中源是Spooldir，接收器是HDFS 我能够在hdfs中收集文件。代理配置为：我有以下格式的hdfs文件： /flume/events/file1.txt。1411543838171/水槽/事件/文件2.txt.1411544272696 我想知道我可以删除时间戳(1411543838171) /唯一号码，这是自动生成的每个事件的文件名？
Flume在更改到新一天的目录后将.tmp文件保留在HDFS中
我用的是Flume 1.7.0和HDFS水槽。我将Flume配置为将数据放在HDFS的日期目录中，这样当新的一天到来时，它会自动更改目录。问题是我把flume设置为按文件大小(240MB)滚动，但是flume离开了。tmp文件，当目录改变时。似乎flume改变到新的一天的目录，而没有关闭未完成的文件(小于240MB)。例如。如果我启动3个水槽代理。然后当水槽代理更改为新目录20180411时，目
Flume NoSuch方法错误将Twitter数据拉入HDFS
由于一个我无法摆脱的错误，我无法使用Flume将Twitter数据拉入HDFS。命令：控制台： flume-env.sh:我手动将flume-sources-1.0-SNAPSHOT.jar添加到flume/lib中。 twitter.conf：操作系统：Ubuntu Flume:v1.9.0 Hadoop:v3.3.0
Flume除非被杀，否则不会写入HDFS
我按照设置TwitterSource和HDFS汇的链接。用于启动代理的命令：我成功地做到了这一点，但现在有一个问题。在停止flume代理之前，输出不会被写入。一旦我杀了我的水槽代理，它就会被写到HDFS。我有两个问题： 1）如何停止水槽剂 - 除了做CTRL C之外，还有其他方法吗？ 2)我能让flume-agent在移动中向HDFS写信，而不必杀死代理吗？注意:终止进程后，写入的文件。t
如何配置 Apache Flume 1.4.0 从 Twitter 获取数据并放入 HDFS（Apache Hadoop 版本 2.5）？
我使用的是Ubuntu 14.04，我的配置文件如下：我正在我的终端上使用以下命令: 我收到以下错误： Apache Flume和Apache Hadoop的版本有兼容性问题吗？我没有找到任何可以帮助我安装Apache Flume 1 . 5 . 1版的好资源。如果没有兼容性问题，那么我应该如何在我的HDFS中获取tweets？
反序列化 Json 文件并使用水槽沉入 HDFS
我有一个假脱机目录，所有json文件都在其中，每秒钟都会有传入的文件被添加到这个目录中，我必须反序列化传入的json文件，获取requires字段并将其附加到HDFS目录中。我所做的是我创建了一个 flume conf 文件，其中将假脱机目录中的文件作为源，并使用 1 个接收器将 json 文件直接放入 HDFS 中。我必须在Sink之前将这个json转换成结构化格式，并将其放入HDFS。最重
从Kafka到HDFS的avro事件
我有 kafka 集群，它从生产者那里接收 avro 事件。我想使用flume来消费这些事件并将它们作为avro文件放在HDFS中水槽可以吗？有没有人有一个配置文件的例子来演示如何做？ Yosi
水槽HDFS源
我想使用 flume 将数据从 hdfs 目录传输到 hdfs 中的目录，在此传输中，我想应用处理形态线。例如：我的来源是我的水槽是有水槽可能吗？如果是，源水槽的类型是什么？
水槽内存香奈儿到HDFS水槽
我遇到了Flume的问题（Cloudera CDH 5.3上的1.5）：我想做的是:每5分钟，大约20个文件被推送到假脱机目录(从远程存储中抓取)。每个文件包含多行，每行是一个日志(在JSON中)。文件大小在10KB到1MB之间。当我启动代理时，所有文件都被成功推送到HDFS。1分钟后（这是我在flume.conf中设置的），文件被滚动（删除. tmp后缀并关闭）。但是，当在假脱机目录中找到

首页

11

12

13

14

15

16

17

18

19

尾页

最新发布

百度数据开发实习面经雷克沙测开二面上海百考丝信息科技有限公司--java面经海致科技--java面经京东Java一二面面经

推荐文章

算法是什么 java学习路线架构师需要哪些素质？C/C++进阶路线 JavaScipt进阶之路

相关问答

python - 明明有这个文件为什么还报错？前端 - 使用 wxt 框架开发浏览器扩展遇到的问题?前端 - 你们用react-markdown做聊天的时候，内容是流不断返回的，如果有图片的话。会造成页面闪烁，因为contten不断变化，重新渲染了。怎么解决的？vue2 - vue虚拟滚动列表vue-virtual-scroller滚动卡顿的问题？前端 - uni-app打包web站点，webview在app端如何上传非媒体类型文件？

推荐题库

小牛知识库超值大礼包总结C语言和Python区别 Python和C语言优劣势对比 JWT介绍？为什么JWT可以防止篡改？HBase数据表查询操作和获取多版本数据

工具软件

minimal-light Eclipse Corrosion Shiretoko NovelHarvester Conceal KAProgressLabel nba-go chan

文档资料

gRPC 官方文档中文版 Apple Watch 人机交互指南 Ruby 用户指南 Go Web 编程 Ruby 源码解读