问题：

水槽加载csv文件Excels到hdfs接收器

水飞掣

2023-03-14

我已将Flume源配置为Spooldir类型。我有很多CSV文件，.xl3和.xls，我希望我的Flume代理将所有文件从假脱机程序加载到HDFS接收器。然而，水槽代理返回异常

这是我对水槽源的配置：

agent.sources.s1.type = spooldir
agent.sources.s1.spoolDir = /my-directory
agent.sources.s1.basenameHeader = true
agent.sources.batchSize = 10000

和我的HDFS接收器：

agent.sinks.sk1.type = hdfs 
agent.sinks.sk1.hdfs.path = hdfs://...:8020/user/importflume/%Y/%m/%d/%H 
agent.sinks.sk1.hdfs.filePrefix = %{basename}
agent.sinks.sk1.hdfs.rollSize = 0
agent.sinks.sk1.hdfs.rollCount = 0
agent.sinks.sk1.hdfs.useLocalTimeStamp = true
agent.sinks.sk1.hdfs.batchsize =    10000
agent.sinks.sk1.hdfs.fileType = DataStream
agent.sinks.sk1.serializer = avro_event
agent.sinks.sk1.serializer.compressionCodec = snappy

共有1个答案

鲍高扬

2023-03-14

您可以使用下面的spool目录配置。只需在下面的配置中提供本地文件系统和HDFS位置的路径。

#Flume Configuration Starts
# Define a file channel called fileChannel on agent1
agent1.channels.fileChannel1_1.type = file 
# on linux FS
agent1.channels.fileChannel1_1.capacity = 200000
agent1.channels.fileChannel1_1.transactionCapacity = 1000
# Define a source for agent1
agent1.sources.source1_1.type = spooldir
# on linux FS
#Spooldir in my case is /home/hadoop/Desktop/flume_sink
agent1.sources.source1_1.spoolDir = 'path'
agent1.sources.source1_1.fileHeader = false
agent1.sources.source1_1.fileSuffix = .COMPLETED
agent1.sinks.hdfs-sink1_1.type = hdfs

#Sink is /flume_import under hdfs

agent1.sinks.hdfs-sink1_1.hdfs.path = hdfs://'path'
agent1.sinks.hdfs-sink1_1.hdfs.batchSize = 1000
agent1.sinks.hdfs-sink1_1.hdfs.rollSize = 268435456
agent1.sinks.hdfs-sink1_1.hdfs.rollInterval = 0
agent1.sinks.hdfs-sink1_1.hdfs.rollCount = 50000000
agent1.sinks.hdfs-sink1_1.hdfs.writeFormat=Text

agent1.sinks.hdfs-sink1_1.hdfs.fileType = DataStream
agent1.sources.source1_1.channels = fileChannel1_1
agent1.sinks.hdfs-sink1_1.channel = fileChannel1_1

agent1.sinks =  hdfs-sink1_1
agent1.sources = source1_1
agent1.channels = fileChannel1_1

您也可以参考Flume spool dir上的这篇博客了解更多信息。

类似资料：

使用水槽将本地文件源到 HDFS 接收器

我正在使用flume将本地文件源到HDFS接收器，下面是我的conf：我使用用户“flume”来执行这个conf文件。但它显示我找不到本地文件，权限被拒绝如何解决这个问题？
水槽HDFS-200追加

https://cwiki.apache.org/confluence/display/FLUME/Getting 开始的页面说 HDFS sink 支持追加，但我无法找到有关如何启用它的任何信息，每个示例都在滚动文件上。因此，如果可能的话，我将不胜感激有关如何将水槽附加到现有文件的任何信息）使现代化可以将所有滚动属性设置为0，这将使flume写入单个文件，但它不会关闭文件，新记录对其他进程不
水槽HDFS接收器:从文件名中删除时间戳

我已经为我的应用程序配置了水槽代理，其中源是Spooldir，接收器是HDFS 我能够在hdfs中收集文件。代理配置为：我有以下格式的hdfs文件： /flume/events/file1.txt。1411543838171/水槽/事件/文件2.txt.1411544272696 我想知道我可以删除时间戳(1411543838171) /唯一号码，这是自动生成的每个事件的文件名？
水槽内存香奈儿到HDFS水槽

我遇到了Flume的问题（Cloudera CDH 5.3上的1.5）：我想做的是:每5分钟，大约20个文件被推送到假脱机目录(从远程存储中抓取)。每个文件包含多行，每行是一个日志(在JSON中)。文件大小在10KB到1MB之间。当我启动代理时，所有文件都被成功推送到HDFS。1分钟后（这是我在flume.conf中设置的），文件被滚动（删除. tmp后缀并关闭）。但是，当在假脱机目录中找到
水槽HDFS源

我想使用 flume 将数据从 hdfs 目录传输到 hdfs 中的目录，在此传输中，我想应用处理形态线。例如：我的来源是我的水槽是有水槽可能吗？如果是，源水槽的类型是什么？
水槽-ng hdfs水槽。文件刷新率控制属性

我尝试每5分钟用其他事件刷新. tmp文件，我的源代码很慢，需要30分钟才能在我的hdfs接收器中获取128MB文件。 flume hdfs接收器中是否有任何属性，我可以在将.tmp文件滚动到hdfs之前控制该文件的刷新率。我需要它使用. tmp文件中的hive表查看HDFS中的数据。目前我正在查看来自的数据。tmp文件，但是。由于卷大小为128MB，tmp文件长时间不刷新。

水槽加载csv文件Excels到hdfs接收器

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档