问题：

使用带有HDFS的spark作为文件存储系统，YARN作为资源管理器的优势是什么？

周和志

2023-03-14

共有1个答案

闽康安

2023-03-14

如果没有足够的内存来读取文件，可以将Spark作业配置为溢出到本地执行器磁盘。也可以在Spark阶段之间启用HDFS快照和缓存。

您提到了CSV，这在Hadoop中通常是一种糟糕的格式。如果你有100GB的CSV，你可以很容易地拥有不到一半，如果用拼花地板或半兽人...

归根结底，您需要一些处理引擎和一些存储层。例如，Mesos或Kubernetes上的Spark可能和纱线上的Spark一样有效，但它们是独立的系统，不像HDFS和纱线那样绑在一起。另外，与MapReduce一样，在使用YARN时，您将执行转移到DataNodeManagers上，而不是通过网络将数据转移到其他Spark执行模式中。NameNode和ResourceManagers协调数据存储和处理的通信

类似资料：

kafka作为事件源系统中的事件存储库

这个问题类似于将Kafka用作CQRS EventStore。好主意？，但更具体的实现。当我有数千个事件“源”（DDD中的聚合根）时，如何使用kafka作为事件存储？正如我在链接问题和其他一些地方读到的，我会有每个来源的主题的问题。如果我将事件按类型拆分到主题中，它将更容易使用和存储，但我需要访问特定源的事件流。如何用Kafka做事件来源？
使用本地文件系统作为Flume源

我刚刚开始学习大数据，目前，我正在研究Flume。我遇到的常见例子是使用一些Java处理推文（Cloudera的例子）。仅仅为了测试和模拟的目的，我可以使用我的本地文件系统作为Flume源代码吗？特别是一些Excel或CSV文件？除了Flume配置文件，我还需要使用一些Java代码吗，就像在推特提取中一样？这个源是事件驱动的还是可轮询的？感谢您的意见。
数据库管理系统的优势

本文向大家介绍数据库管理系统的优势，包括了数据库管理系统的优势的使用技巧和注意事项，需要的朋友参考一下数据库管理系统(DBMS)定义为允许用户定义，创建，维护和控制对数据库访问的软件系统。DBMS使最终用户可以创建，读取，更新和删除数据库中的数据。它是程序和数据之间的一层。与基于文件的数据管理系统相比，数据库管理系统具有许多优势。这些优点中的一些在下面给出- 减少数据冗余基于文件的数据管理系
从eclipse插件打开操作系统默认文件资源管理器？
使用Heroku临时文件系统作为Ehcache磁盘存储

正如 Heroku Dyno 临时文件系统文档所解释的那样，当 dyno 停止或重新启动时，文件系统将被丢弃。这意味着它不能用作永久（磁盘）存储。我的用例是我想使用Ehcache缓存一些参考数据。我在考虑使用一些（有限的）堆内存以获得最佳性能，如果它不足以回退到磁盘存储。使用Ehcache，这可以在每个缓存的基础上进行很好的配置，例如在堆内存中存储最多1000个条目，例如在磁盘上存储25MB。
集群资源管理器 —— YARN

一、hadoop yarn 简介 Apache YARN (Yet Another Resource Negotiator) 是 hadoop 2.0 引入的集群资源管理系统。用户可以将各种服务框架部署在 YARN 上，由 YARN 进行统一地管理和资源分配。二、YARN架构 1. ResourceManager ResourceManager 通常在独立的机器上以后台进程的形式运行，它是整个集

使用带有HDFS的spark作为文件存储系统，YARN作为资源管理器的优势是什么？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档