当前位置: 首页 > 知识库问答 >
问题:

将Apache Spark与HDFS结合使用与其他集中式存储

傅正阳
2023-03-14

在Spark的FAQ中,它特别指出不必使用HDFS:

我需要Hadoop来运行Spark吗?

否,但如果在集群上运行,则需要某种形式的共享文件系统(例如,在每个节点上的同一路径上挂载的 NFS)。如果你有这种类型的文件系统,你可以在独立模式下部署Spark。

那么,如果我不打算使用Hadoop MapReduce,那么与其他分布式文件系统(如NFS)相比,在HDFS上使用Apache Spark有什么优点/缺点呢?如果我使用NFS而不是HDFS作为节点存储(用于检查点、洗牌溢出等),我会不会缺少一个重要的功能?

共有1个答案

吕文林
2023-03-14

几个月后,我在NFS和HDFS都有了一些经验,现在我可以回答自己的问题了:

NFS允许查看/更改远程机器上的文件,就好像它们存储在本地机器上一样。HDFS也可以做到这一点,但它是分布式的(与NFS相反)并且具有容错性和可扩展性。

使用NFS的优点是设置简单,因此我可能会将其用于QA环境或小型集群。HDFS的优势当然是容错性,但更大的优势IMHO是当HDFS与Spark节点位于同一位置时能够利用局部性,这为检查点、无序溢出等提供了最佳性能

 类似资料:
  • nginx 世界的 location 是异常强大的,毕竟 nginx 的主要应用场景是在负载均衡、API server,在不同 server、location 之间跳转更是家常便饭。利用不同 location 的功能组合,我们可以完成内部调用、流水线方式跳转、外部重定向等几大不同方式,下面将给大家介绍几个主要应用,就当抛砖引玉。 内部调用 例如对数据库、内部公共函数的统一接口,可以把它们放到统一的

  • 问题内容: 我不太喜欢MySQL,但是我只需要声明一下,非常感谢您的帮助。 我有两个表:“用户”和“得分” 这是“用户”的结构: 这是“得分”的结构: 现在,我需要一个查询,该查询为我提供了某种高分列表。结果应包含user_id,user_name和与该用户相关的所有分数之和:我应该看起来像这样: 更好的是,如果结果按照用户在全球排名中的排名顺序进行排序,如下所示: 我尝试了这个说法 这会导致语法

  • 问题内容: 我在SO上发现了其他几个有关JavaMail API和通过SMTP服务器发送邮件的问题,但是没有一个使用TLS安全性进行讨论。我正在尝试使用JavaMail通过我的工作SMTP邮件服务器向我发送状态更新,但是它需要TLS,而且我在网上找不到任何有关如何使用JavaMail访问需要TLS加密的SMTP服务器的示例。有人能帮忙吗? 问题答案: 实际上,我们的产品中确实有一些通知代码,如果有

  • 我已经阅读了一些关于SaaS/PaaS/IaaS的信息,我在想: 如果我提供了一个SaaS应用程序,我的客户能否使用PaaS开发和部署他自己的应用程序,PaaS将使用一些API与我的SaaS应用程序交互?还是我对云服务的理解有误?

  • 我想使用SAML2将OKTA与CAS集成。0协议, 我想使用OKTA作为中间件,所以我将通过OKTA配置我的应用程序,然后OKTA将与客户端SSO通信, 例如:点击登录url时,页面应重定向到客户端SSO页面(支持SAML2.0),如CAS或Okta本身,客户端将使用该页面登录,然后该页面将向Okta返回一些详细信息,这样我就可以获得该详细信息并进行进一步授权。 我不想将每个SSO配置到我的系统中

  • 让我们从建立一个计数器组件开始。这个组件将负责跟踪其被点击多少次并显示该数量。 app/components/counter-component.ts View Example 在这种情况下,点击事件绑定到从 ActionCreatorService调用我们的动作创建者的表达式。 让我们来看看@select的使用。 是Ng2-Redux的一个功能,它旨在帮助您以声明方式将 store 的状态附加到

  • 有可能将融合模式注册与AWS MSK集成吗?如果你以前这样做过,你能提供一些你实现它的方法/博客吗?

  • 谷歌云存储(与谷歌硬盘不同)似乎与S3应用编程接口兼容: https://developers.google.com/storage/docs/migrating#migration-simple 有人知道我是否可以使用aws/aws-sdk-php(https://packagist.org/packages/aws/aws-sdk-php)包并将其配置为连接到我的谷歌云存储而不是AWS S3吗