当前位置：首页 > 专题 >

《HDFS》专题

即使json数据包含模式和有效负载字段，kafka connect hdfs接收器连接器也会失败
我正在尝试kafka connect hdfs接收器连接器，以便将json数据从kafka移动到hdfs。即使在kafka中的json数据具有模式和有效负载时，kafka connect任务也会因错误而失败 Kafka的数据：错误消息： http://localhost:8083/connectors/connect-cluster-15may-308pm/tasks/0/status
带有SchemRegistry的KafkaConnect HDFS连接器
我参考了以下链接来了解Kafka的HDFS连接https://docs.confluent.io/2.0.0/Connect/connect-hdfs/docs/index.html 我能够通过配置单元集成将数据从Kafka导出到HDFS。现在我正尝试在Java程序的帮助下将avro记录写入Kafka 当我把Avro记录写到Kafka主题时，我在Connect中出现以下错误
Kafka Connect：如何使用HDFS接收器连接器将protobuf数据从Kafka主题发送到HDFS？
我有一个生产者，它正在为一个主题生成protobuf消息。我有一个消费者应用程序，它反序列化protobuf消息。但hdfs接收器连接器直接从Kafka主题接收消息。中的键和值转换器将设置为什么？做这件事最好的方法是什么？提前道谢！
Kafka Storm HDFS/S3数据流
现在还不清楚你是否能像在《水槽》中那样在Kafka中做一个扇出（复制）。我想让Kafka将数据保存到HDFS或S3，并将该数据的副本发送到Storm进行实时处理。Storm集合/分析的输出将存储在Cassandra中。我看到一些实现将所有数据从Kafka流到Storm，然后从Storm输出两个。但是，我想消除Storm对原始数据存储的依赖。这可能吗？您知道任何类似的文档/示例/实现吗？还有，
为什么Spark RDD分区对HDFS有2GB的限制？
我在使用mllib RAnywhere Forest训练数据时出错。由于我的数据集很大，默认分区相对较小。所以抛出一个异常，指示“大小超过整数。MAX_VALUE”，原始堆栈跟踪如下， 15/04/16 14:13:03警告调度程序。TaskSetManager:在6.0阶段（TID 120，10.215.149.47）丢失了Task19.0：java。lang.IllegalArgumentEx
字符串相等但行为不同：如果文件字符串来自HDFS文件，则它们不适用于火花
这个问题更容易用代码内联解释：我已经被困在这个舞台问题上好几天了。我似乎也找不到工作。有我看不到的差异吗？两个相等的字符串怎么会表现得如此不同呢。请帮帮我，我要发疯了，想办法解决这个问题！我得到的具体例外是：原因：java.io.NotSerializableException：org.apache.hadoop.hdfs.分布式文件系统序列化堆栈：-对象不可序列化（类：org.apache
无法更改对hdfs目录的读写权限
我正在尝试将文本文件复制到hdfs位置。我面临访问问题，所以我尝试更改权限。但我无法更改以下相同的面临错误：
使用JAVA API授予hdfs目标目录的权限
当我使用JAVA API将数据放入hdfs时，我必须为hdfs目标目录提供许可。我尝试了以下代码：我有以下错误
克服HDFS-2556:单元测试目录和权限
火花：无法从HDFS加载拼花文件，直到将它们“放入”hdfs
我有一个c#应用程序，可以创建拼花地板文件并将其上载到远程HDFS。如果我使用scp将文件复制到安装了HDFS客户端的目标计算机上，然后将文件“HDFS放入”HDFS中，spark可以正确读取文件。如果我使用curl针对webhdf服务从客户端应用程序直接将文件上传到HDFS，则在尝试读取拼花文件时会从Spark收到以下错误： df=sqlContext。阅读parquet（“/tmp/test
从Spark访问Hdfs会出现TokenCache错误无法获取主Kerberos本金用作续订器
我正在尝试运行一个测试Spark脚本，以便将Spark连接到hadoop。脚本如下当我用pyspark运行它时 py4j。协议Py4JJavaError：调用o21时出错。收款人：JAVAio。IOException：无法获取主Kerberos主体以用作组织的续订者。阿帕奇。hadoop。mapreduce。安全令牌缓存。org上的obtainTokensForNamenodesInternal
尝试将hdfs中的csv文件加载到配置单元表时未选择行
我有一个csv文件，名为测试。hdfs中的csv。文件是通过filezilla放在那里的。当我通过putty登录到Edge节点时，我能够查看文件的路径和内容，使用的帐户凭据与我将文件放入hdfs时使用的帐户凭据相同。然后，我连接到配置单元并尝试创建一个外部表，使用以下语句指定我的csv文件在hdfs中的位置：当我执行这个命令时，它正在配置单元上创建一个外部表，但正在创建的表是空的，只显示我在cr
在Hadoop中，什么存储在dfs.data.dir（在hdfs-site.xml参数中）
我创建了一个目录，如下所示，并使用以下语法创建hive表 a） 1）dfs-mkdir/应用程序/hadoop/仓库/ 2）创建表employee（empid int，name string，姓氏string）行格式分隔字段，以“，”location“/app/hadoop/warehouse/”结尾； 3）加载数据到路径“/输入文件位置。txt'覆盖到表employee中；如果我的理解是正
使用时间路径的火花写入操作HDFS
我正在尝试从这个Scala代码写入csv文件。我使用HDFS作为临时目录，然后writer.write在现有子文件夹中创建一个新文件。我收到以下错误消息： java.io./tfsdl-ghd-wb/raidnd/Incte_19 如果我选择新建文件或退出文件，也会发生同样的情况，我已经检查了路径是否正确，只想在其中创建一个新文件。问题是，为了使用基于文件系统的源写入数据，您需要一个临时目录，这
以hdfs为水槽的水槽中的NOSUCH方法错误
我试图配置水槽与HDFS作为汇。这是我的flume.conf文件：我的hadoop版本是：水槽版本是：我已将这两个jar文件放在flume/lib目录中我将hadoop common jar放在那里，因为在启动flume代理时出现以下错误：现在代理开始了。这是启动日志：但是当一些事件发生时，下面的错误出现在水槽日志中，并且没有任何东西被写入hdfs。我缺少一些配置或jar文件？

首页

3

4

5

6

7

8

9

10

11

尾页

最新发布

百度数据开发实习面经雷克沙测开二面上海百考丝信息科技有限公司--java面经海致科技--java面经京东Java一二面面经

推荐文章

算法是什么 java学习路线架构师需要哪些素质？C/C++进阶路线 JavaScipt进阶之路

相关问答

python - 明明有这个文件为什么还报错？前端 - 使用 wxt 框架开发浏览器扩展遇到的问题?前端 - 你们用react-markdown做聊天的时候，内容是流不断返回的，如果有图片的话。会造成页面闪烁，因为contten不断变化，重新渲染了。怎么解决的？vue2 - vue虚拟滚动列表vue-virtual-scroller滚动卡顿的问题？前端 - uni-app打包web站点，webview在app端如何上传非媒体类型文件？

推荐题库

小牛知识库超值大礼包总结C语言和Python区别 Python和C语言优劣势对比 JWT介绍？为什么JWT可以防止篡改？HBase数据表查询操作和获取多版本数据

工具软件

minimal-light Eclipse Corrosion Shiretoko NovelHarvester Conceal KAProgressLabel nba-go chan

文档资料

gRPC 官方文档中文版 Apple Watch 人机交互指南 Ruby 用户指南 Go Web 编程 Ruby 源码解读