当hdfs不可用时,是否有方法确保数据安全?场景是:kafka源,flume内存通道,hdfs接收器。如果水槽服务关闭了,它是否可以存储主题分区的偏移量,并在恢复后从正确的位置消费?
在HDFS中写入日志文件的最佳方式是什么?我正在尝试配置Apache Flume,并尝试配置能够为我提供数据可靠性的源。我试图配置“exec”,后来也查看了“spooldir”,但flume.apache上的以下文档。org对我的意图表示怀疑- 执行来源: 最常请求的功能之一是像“tail -F file_name”这样的用例,其中应用程序写入磁盘上的日志文件,Flume 尾随文件,将每一行作为事
我正在尝试使用Flume-ng获取90秒的日志信息,并将其放入HDFS的一个文件中。我让flume通过exec和tail查看日志文件,但是它每5秒创建一个文件,而不是我试图配置为每90秒创建一个文件。 我的flume.conf如下: 我试图通过参数-agent1.sinks.sink1.hdfs.rollInterval=90来控制文件大小。 运行此配置会产生: 从时间戳可以看出,它大约每5秒钟创
尝试运行水槽作业时,我收到下面给出的错误。我正在云时代设置上运行它。 Kafka是来源 Morphline用作拦截器,从中创建avro记录 接收器为HDFS 完全相同的文件(morphline,avro schema等。水槽配置)。但是在另一个环境中,它会抛出这个错误。 我能够在水槽上找到相关代码:https://github.com/apache/flume/blob/trunk/flume-n
我需要将存在于Web链接上的数据上传到hdfs,例如“博客”。 现在,我正在寻找实现这一目标的选项,可以找到以下链接: http://blog . cloud era . com/blog/2012/09/analyzing-Twitter-data-with-Hadoop/ 但是通过水槽文档阅读,我不清楚如何设置水槽源来指向博客内容所在的网站。 根据我对 fluem 文档的理解,需要有网络服务器
我一直在关注这篇关于如何用Hive分析twitter数据的文章:http://blog . cloud era . com/blog/2012/11/analyzing-Twitter-data-with-Hadoop-part-3-query-semi-structured-data-with-Hive/ 我设置了水槽来收集twitter数据并写入HDFS。我已经设置了一个指向同一HDFS位置的
我使用flume将服务器日志中的数据传输到hdfs中。但是当数据流入hdfs时,它首先创建。tmp文件。在配置中有没有一种方法?可以隐藏tmp文件,或者通过在前面附加一个.来改变其名称。我的收款代理文件看起来像- 任何帮助都将不胜感激。
我是使用Flume和Hadoop的新手,所以我试图尽可能设置一个最简单的(但有些帮助/现实的)例子。我在虚拟机客户端中使用HortonWorks沙盒。在完成了教程12(包括设置和使用Flume)之后,一切看起来都正常了。 所以我建立了自己的flume.conf 从apache访问日志中读取 使用内存通道 写入HDFS 够简单吧?这是我的会议文件 我见过几个人在给HDFS写信时遇到问题,大多数情况下
我正在开发一个专门用于在HDFS文件系统(位于)上使用Spark的Java程序。我的目标之一是检查HDFS上是否存在路径的文件。在本地调试程序时,我发现无法使用以下代码访问此远程文件 实际上,尝试在本地FS中而不是在HDFS上查找文件。顺便说一句,让前缀使崩溃,而取消它将回答,因为本地不存在。 的适当配置是什么,以使事情在本地和从Hadoop集群执行Java程序时正常工作? 编辑:我最后放弃了,把
在我的Java应用程序中,我使用的是一个文本文件(大小为300MB),它保存在HDFS中。文件的每一行都包含一个字符串和一个用逗号分隔的整数ID。我正在逐行读取文件,并从中创建Hashmaps(String,ID)。 文件如下所示: 现在,我当前正在直接使用Apacha Hadoop配置和FileSystem对象从HDFS读取文件。 输入流“in”被传递给另一个名为read(InputStream
我正在尝试从kafka读取数据并保存到HDFS上的parquet文件。我的代码和下面类似,不同的是我是在Java写的。 但是,它抛出了异常,其中是输出路径。 当我把代码改成和一次写出parquet文件时,没有任何例外,所以我猜这与我的hdfs配置没有关系。 有人能帮我吗?
我正在尝试在我的本地机器上启动一个hadoop单节点集群。我已经根据https://amodernstory.com/2014/09/23/installing-hadoop-on-mac-osx-yosemite/配置了以下文件:hadoop-env.sh、core-site.xml、mapred-site.xml和hdfs-site.xml。当我运行脚本和命令(在运行之后)时,我看到数据阳极已
我是Apache Spark的新手,正在尝试从本地文件系统加载文件。我正在学习Hadoop--这是一本权威的指南书。 下面是我设置的环境变量: 下面是我正在执行的命令: 上面的sc.textfile命令有我本地文件系统的路径,但有一些是如何指向hdfs,对于hdfs,我得到了以下错误: 因此,我认为它将指向我的hdfs文件系统,所以我在hdfs中的“/user/hive/warehouse/rec
我正在使用HDFS并尝试使用hadoop conf和fs包中的配置和文件系统类将一个文件从本地系统复制到HDFS文件系统,如下所示: 但运行此程序会给我一个例外情况,如下所示: 原因是当前用户KV没有HDFS中books目录的文件写权限。 我试着从控制台复制文件,这是正常工作的。我从控制台尝试了以下命令: 我在谷歌上找到了很多搜索结果,但没有一个对我有效。如何解决这个问题?如何使用sudo权限从S
我正在尝试找到一个解决方案,用于将文件从我的本地windows机器或本地linux机器复制到云上的hdfs。 我知道一个办法, 远程->群集节点(使用scp) 节点->hdfs(使用hdfs命令) 但是对于我的用例,它不起作用,我需要找到一个解决方案,直接上传文件从本地到hdfs,就像hue做的上传。 我也试着遵循命令 hdfs dfs-copyfromlocal file:://<'local-