当前位置：首页 > 专题 >

《HDFS》专题

水槽使用hdfs水槽。hdfs不可用时如何保证数据完整性？
当hdfs不可用时，是否有方法确保数据安全？场景是：kafka源，flume内存通道，hdfs接收器。如果水槽服务关闭了，它是否可以存储主题分区的偏移量，并在恢复后从正确的位置消费？
使用Flume将日志文件写入HDFS
在HDFS中写入日志文件的最佳方式是什么？我正在尝试配置Apache Flume，并尝试配置能够为我提供数据可靠性的源。我试图配置“exec”，后来也查看了“spooldir”，但flume.apache上的以下文档。org对我的意图表示怀疑- 执行来源：最常请求的功能之一是像“tail -F file_name”这样的用例，其中应用程序写入磁盘上的日志文件，Flume 尾随文件，将每一行作为事
在Flume-ng中使用HDFS接收器和滚动间隔来批量处理90秒的日志信息
我正在尝试使用Flume-ng获取90秒的日志信息，并将其放入HDFS的一个文件中。我让flume通过exec和tail查看日志文件，但是它每5秒创建一个文件，而不是我试图配置为每90秒创建一个文件。我的flume.conf如下: 我试图通过参数-agent1.sinks.sink1.hdfs.rollInterval=90来控制文件大小。运行此配置会产生: 从时间戳可以看出，它大约每5秒钟创
Flume HDFS接收器写入错误“无协议:值”
尝试运行水槽作业时，我收到下面给出的错误。我正在云时代设置上运行它。 Kafka是来源 Morphline用作拦截器，从中创建avro记录接收器为HDFS 完全相同的文件(morphline，avro schema等。水槽配置)。但是在另一个环境中，它会抛出这个错误。我能够在水槽上找到相关代码：https://github.com/apache/flume/blob/trunk/flume-n
将数据从网站加载到hdfs
我需要将存在于Web链接上的数据上传到hdfs，例如“博客”。现在，我正在寻找实现这一目标的选项，可以找到以下链接: http://blog . cloud era . com/blog/2012/09/analyzing-Twitter-data-with-Hadoop/ 但是通过水槽文档阅读，我不清楚如何设置水槽源来指向博客内容所在的网站。根据我对 fluem 文档的理解，需要有网络服务器
来自HDFS Twitter数据的Hive查询
我一直在关注这篇关于如何用Hive分析twitter数据的文章:http://blog . cloud era . com/blog/2012/11/analyzing-Twitter-data-with-Hadoop-part-3-query-semi-structured-data-with-Hive/ 我设置了水槽来收集twitter数据并写入HDFS。我已经设置了一个指向同一HDFS位置的
将水槽配置为在将数据下沉到hdfs时不生成. tmp文件
我使用flume将服务器日志中的数据传输到hdfs中。但是当数据流入hdfs时，它首先创建。tmp文件。在配置中有没有一种方法？可以隐藏tmp文件，或者通过在前面附加一个.来改变其名称。我的收款代理文件看起来像- 任何帮助都将不胜感激。
水槽NG未写入HDFS
我是使用Flume和Hadoop的新手，所以我试图尽可能设置一个最简单的(但有些帮助/现实的)例子。我在虚拟机客户端中使用HortonWorks沙盒。在完成了教程12(包括设置和使用Flume)之后，一切看起来都正常了。所以我建立了自己的flume.conf 从apache访问日志中读取使用内存通道写入HDFS 够简单吧？这是我的会议文件我见过几个人在给HDFS写信时遇到问题，大多数情况下
从本地spark-submit检查远程HDFS上是否存在文件
我正在开发一个专门用于在HDFS文件系统（位于)上使用Spark的Java程序。我的目标之一是检查HDFS上是否存在路径的文件。在本地调试程序时，我发现无法使用以下代码访问此远程文件实际上，尝试在本地FS中而不是在HDFS上查找文件。顺便说一句，让前缀使崩溃，而取消它将回答，因为本地不存在。的适当配置是什么，以使事情在本地和从Hadoop集群执行Java程序时正常工作？编辑：我最后放弃了，把
从HDFS传输文件与将其复制到本地磁盘
在我的Java应用程序中，我使用的是一个文本文件（大小为300MB)，它保存在HDFS中。文件的每一行都包含一个字符串和一个用逗号分隔的整数ID。我正在逐行读取文件，并从中创建Hashmaps(String，ID)。文件如下所示：现在，我当前正在直接使用Apacha Hadoop配置和FileSystem对象从HDFS读取文件。输入流“in”被传递给另一个名为read（InputStream
没有权限的Uri：hdfs:/data/_spark_metadata在hdfs上使用火花流写入拼板文件时出错
我正在尝试从kafka读取数据并保存到HDFS上的parquet文件。我的代码和下面类似，不同的是我是在Java写的。但是，它抛出了异常，其中是输出路径。当我把代码改成和一次写出parquet文件时，没有任何例外，所以我猜这与我的hdfs配置没有关系。有人能帮我吗？
如何将文件复制到HDFS中？
我正在尝试在我的本地机器上启动一个hadoop单节点集群。我已经根据https://amodernstory.com/2014/09/23/installing-hadoop-on-mac-osx-yosemite/配置了以下文件:hadoop-env.sh、core-site.xml、mapred-site.xml和hdfs-site.xml。当我运行脚本和命令（在运行之后）时，我看到数据阳极已
Apache Spark：从本地而不是HDFS加载文件，并且加载本地文件时会产生IllegalArguementException
我是Apache Spark的新手，正在尝试从本地文件系统加载文件。我正在学习Hadoop--这是一本权威的指南书。下面是我设置的环境变量：下面是我正在执行的命令：上面的sc.textfile命令有我本地文件系统的路径，但有一些是如何指向hdfs，对于hdfs，我得到了以下错误：因此，我认为它将指向我的hdfs文件系统，所以我在hdfs中的“/user/hive/warehouse/rec
从STS Java程序将文件从本地系统复制到HDFS时，权限被拒绝
我正在使用HDFS并尝试使用hadoop conf和fs包中的配置和文件系统类将一个文件从本地系统复制到HDFS文件系统，如下所示：但运行此程序会给我一个例外情况，如下所示：原因是当前用户KV没有HDFS中books目录的文件写权限。我试着从控制台复制文件，这是正常工作的。我从控制台尝试了以下命令：我在谷歌上找到了很多搜索结果，但没有一个对我有效。如何解决这个问题？如何使用sudo权限从S
从haddop集群（远程windows计算机）向hdfs上传文件，就像hue上传一样
我正在尝试找到一个解决方案，用于将文件从我的本地windows机器或本地linux机器复制到云上的hdfs。我知道一个办法，远程->群集节点（使用scp）节点->hdfs（使用hdfs命令）但是对于我的用例，它不起作用，我需要找到一个解决方案，直接上传文件从本地到hdfs，就像hue做的上传。我也试着遵循命令 hdfs dfs-copyfromlocal file:://<'local-

首页

12

13

14

15

16

17

18

19

20

尾页

最新发布

百度数据开发实习面经雷克沙测开二面上海百考丝信息科技有限公司--java面经海致科技--java面经京东Java一二面面经

推荐文章

算法是什么 java学习路线架构师需要哪些素质？C/C++进阶路线 JavaScipt进阶之路

相关问答

python - 明明有这个文件为什么还报错？前端 - 使用 wxt 框架开发浏览器扩展遇到的问题?前端 - 你们用react-markdown做聊天的时候，内容是流不断返回的，如果有图片的话。会造成页面闪烁，因为contten不断变化，重新渲染了。怎么解决的？vue2 - vue虚拟滚动列表vue-virtual-scroller滚动卡顿的问题？前端 - uni-app打包web站点，webview在app端如何上传非媒体类型文件？

推荐题库

小牛知识库超值大礼包总结C语言和Python区别 Python和C语言优劣势对比 JWT介绍？为什么JWT可以防止篡改？HBase数据表查询操作和获取多版本数据

工具软件

minimal-light Eclipse Corrosion Shiretoko NovelHarvester Conceal KAProgressLabel nba-go chan

文档资料

gRPC 官方文档中文版 Apple Watch 人机交互指南 Ruby 用户指南 Go Web 编程 Ruby 源码解读