当前位置：首页 > 专题 >

《HDFS》专题

我可以从Spark程序而不是从RDD编写纯文本HDFS（或本地）文件吗？
我有一个Spark程序（在Scala中）和一个。我正在用的编写一些文件。在我的本地机器上，我可以使用本地文件路径，它与本地文件系统一起工作。在我的集群上，它与HDFS一起工作。我还想写其他任意文件作为处理的结果。我在本地计算机上将它们作为常规文件编写，但希望它们进入集群上的HDFS。似乎有一些与文件相关的方法，但它们似乎都是输入而不是输出。我该怎么做？
spark (2.3或新版本)如何确定在gs bucket或hdfs中读取hive表文件的任务数？
输入数据： < li >包含35个文件的配置单元表(T)(每个文件约1.5GB，SequenceFile) < li >文件在gs存储桶中 < li >默认fs.gs.block.size=~128MB < li >所有其他参数都是默认的实验 1：创建一个具有2个工作线程的dataproc（每个工作线程4个核心）从T运行选择计数（*）实验1结果：为读取配置单元表文件创建了约 650 个任
HDFS目录作为火花流中的参数
我在使用 Spark 流式处理示例时遇到问题：https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/streaming/examples/HdfsWordCount.scala 当我尝试使用 SBT 启动它时我有这个例外我确定该目录存在于Hadoop fs上，我甚至在那里复制了一
Spark已安装，但未找到命令“hdfs”或“hadoop”
我是一个新的pyspark用户。我刚刚下载并安装了一个spark集群（“spark-2.0.2-bin-hadoop2.7.tgz”），安装后我想访问文件系统（将本地文件上传到集群）。但当我尝试在命令中键入hadoop或hdfs时，它会说“no command found”。我要安装Hadoop/HDFS吗（我以为它是在spark中构建的，我不明白）？提前道谢。
Spark只运行一个执行程序，同时尝试从Oracle表将数据读写到HDFS
我正在使用的连接到，并尝试读取包含 4000 万行的预言机表。我在启动火花外壳/提交时为每个执行器使用30个执行器，5个执行器核心和4g内存。在读取数据帧的计数或尝试写入数据帧的数据时，它仅使用一个执行器从预言机读取/写入数据。已尝试对数据帧进行重新分区，但仍仅使用 1 个执行程序，导致性能大幅下降。以下是使用的语法，非常感谢任何建议。命令段：-
Mesos 上的独立 Spark 集群访问不同 Hadoop 集群中的 HDFS 数据
我们有一个Hadoop集群，数据节点为275个节点（55Tb总内存，12000个VCore）。这个集群与几个项目共享，我们有一个YARN队列分配给我们，资源有限。为了提高性能，我们正在考虑为我们的项目构建一个单独的Spark集群（在同一网络中的Mesos上）并访问Hadoop集群上的HDFS数据。正如Spark文档中提到的：https://spark.apache.org/docs/lates
火花：HDFS块与集群核心与rdd分区
我对spark有疑问：HDFS块vs集群核心vs rdd分区。假设我正在尝试在HDFS中处理一个文件（例如块大小为64MB，文件为6400MB）。所以理想情况下它确实有100个分裂。我的集群总共有 200 个核心，我提交了包含 25 个执行程序的作业，每个执行程序有 4 个核心（意味着可以运行 100 个并行任务）。简而言之，我在rdd中默认有100个分区，100个内核将运行。这是一个好方
配置单元外部表无法读取已分区的hdfs目录
我有一个map reduce作业，它已经使用配置单元分区命名约定将记录写入hdfs。如有没有一种方法可以让hive自动识别分区（不需要执行插入查询）？
从配置单元外部表和HDFS目录中删除null或__hive_default_partition__
我试过这个如果存在分区(process_date='__hive_default_partition__')，则更改表Table_Name DROP；我正在犯错误
当分区数据从HDFS中被手动删除时，如何更新配置单元中的分区元数据
如果新的分区数据被添加到HDFS（没有alter table添加分区命令执行）。然后，我们可以通过执行命令'MSCK修复‘来同步元数据。如果从HDFS中删除了许多分区数据，该怎么办（不执行alter table drop partition commad执行）。如何同步配置单元元数据？
在写入HDFS或S3时Spark会锁定文件吗
我有一个具有以下目录结构的S3位置，其顶部创建了一个配置单元表：假设我有一个Spark程序，它使用下面的代码行将数据跨多个分区写入上面的表位置： spark在写入S3位置时是否锁定数据文件？我们如何使用Spark作为ETL工具来处理这样的并发情况？
从HDFS中删除分区目录，是否会反映在配置单元表中？
假设我创建了一个分区列为年、月和日的配置单元表，如果我从hdfs中删除分区，那么结果是否会反映在配置单元表中
具有混合数据源的MapReduce作业：HBase表和HDFS文件
我需要实现一个从HBase表和HDFS文件访问数据的MR作业。E、例如，映射器从HBase表和HDFS文件读取数据，这些数据共享相同的主键，但具有不同的模式。然后，reducer将所有列（来自HBase表和HDFS文件）连接在一起。我试着在线查看，但找不到使用这种混合数据源运行MR作业的方法。MultipleInput似乎只适用于多个HDFS数据源。如果您有一些想法，请告诉我。示例代码会很棒。
在HDFS读书，给HBASE写信
Mapper正在从两个地方读取文件1）用户访问的文章（按国家排序）2）国家统计（国家明智）两个Mapper的输出都是Text，Text 我正在运行Amazon集群的程序我的目标是从两个不同的集合中读取数据，并将结果组合起来存储在hbase中。 HDFS到HDFS正在工作。代码在减少67%时卡住了，并给出了如下错误：驱动程序类是减速器等级为属国
HDFS namenode在Kubernetes上不能正确显示数据阳极列表
但一个奇怪的错误正在发生。当我检查Namenode GUI或dfsadmin client以获取datanodes列表时，它只随机显示一个datanode，即有时是datanode-0，有时是DataNode-1。它从不显示两个/所有数据阳极。这里会有什么问题？我甚至在用无头服务。请帮忙。运行hdfs dfsadmin-report只随机显示一个datanode，例如有时datanode-0和

首页

13

14

15

16

17

18

19

20

21

尾页

最新发布

百度数据开发实习面经雷克沙测开二面上海百考丝信息科技有限公司--java面经海致科技--java面经京东Java一二面面经

推荐文章

算法是什么 java学习路线架构师需要哪些素质？C/C++进阶路线 JavaScipt进阶之路

相关问答

python - 明明有这个文件为什么还报错？前端 - 使用 wxt 框架开发浏览器扩展遇到的问题?前端 - 你们用react-markdown做聊天的时候，内容是流不断返回的，如果有图片的话。会造成页面闪烁，因为contten不断变化，重新渲染了。怎么解决的？vue2 - vue虚拟滚动列表vue-virtual-scroller滚动卡顿的问题？前端 - uni-app打包web站点，webview在app端如何上传非媒体类型文件？

推荐题库

小牛知识库超值大礼包总结C语言和Python区别 Python和C语言优劣势对比 JWT介绍？为什么JWT可以防止篡改？HBase数据表查询操作和获取多版本数据

工具软件

minimal-light Eclipse Corrosion Shiretoko NovelHarvester Conceal KAProgressLabel nba-go chan

文档资料

gRPC 官方文档中文版 Apple Watch 人机交互指南 Ruby 用户指南 Go Web 编程 Ruby 源码解读