问题：

运行Spark集群的Azure数据库中对Azure Blob存储的需求

湛骏祥

2023-03-14

我在Azure Databricks生态系统上使用Spark集群，其中有Azure Blob存储。此外，还有与数据库相关联的数据库文件系统(DBFS)。我想知道是否需要一个Azure Blob存储器来存储数据？DBFS是否不足以存储文件/数据？

共有1个答案

鲁烨

2023-03-14

根据我的知识和文档，Azure Databricks通过DBFS使用Azure Blob存储。回答你的问题--不，没有必要，这就够了。无论如何，您的数据都将被持久化。如果您计划将存储的数据与笔记本以外的其他应用程序（例如HDInsight集群上的spark job）一起使用，我建议您设置一个额外的（显式命名的）blob存储帐户。

类似资料：

Spark数据帧中的分区和群集

我们有没有可能在Spark中先按一列分区，然后再按另一列聚类？在我的例子中，我在一个有数百万行的表中有一个< code>month列和一个< code>cust_id列。我可以说，当我将数据帧保存到hive表中，以便根据月份将该表分区，并按< code>cust_id将该表聚类成50个文件吗？忽略按< code>cust_id的聚类，这里有三个不同的选项第一种情况和最后一种情况在 Spark
在Azure databricks上的远程群集设置中运行spark scala脚本

我已经用intelliJ编写了一个spark scala（sbt）应用程序，我想在Azure databricks上托管的远程集群上运行它。为了避免手动将JAR上传到dbfs中，需要遵循哪些步骤来测试代码
Kubernetes集群上运行的Spark独立集群的Hadoop集群Kerberos身份验证

我已经在Kubernetes上建立了Spark独立集群，并试图连接到Kubernetes上没有的Kerberized Hadoop集群。我已经将core-site.xml和hdfs-site.xml放在Spark集群的容器中，并相应地设置了HADOOP_CONF_DIR。我能够成功地在Spark容器中为访问Hadoop集群的principal生成kerberos凭据缓存。但是当我运行spark-s
收集Spark群集外的数据时内存不足错误

null 当我运行上面的代码，然后该表以激发内存时，它占用的内存<2GB-与集群可用的内存相比很小-然后当我试图数据到驱动程序节点时，我会得到一个OOM错误。我已尝试在以下设置上运行：具有32个内核和244GB RAM的计算机上的本地模式具有10 x 6.2GB执行程序和61GB驱动程序节点的独立模式我的问题：缓存后占用空间如此之少的数据文件怎么会导致内存问题？在我转向可能损害性能的其
Spark如何处理大于集群内存的数据

如果我只有一个内存为25 GB的执行器，并且如果它一次只能运行一个任务，那么是否可以处理（转换和操作）1 TB的数据？如果可以，那么将如何读取它以及中间数据将存储在哪里？同样对于相同的场景，如果hadoop文件有300个输入拆分，那么RDD中会有300个分区，那么在这种情况下这些分区会在哪里？它会只保留在hadoop磁盘上并且我的单个任务会运行300次吗？
Azure数据仓库的Azure blob存储网络规则（Ip）

我需要使用Polybase将外部数据（在blob存储中）加载到我的Azure数据仓库。当我使用经典Azure存储时，它运行良好。最近，我必须将我们的存储更新到ARM，我不知道如何将ARM存储上的防火墙规则设置到我的Azure数据仓库。如果我将防火墙设置为“所有网络”，一切都可以无缝运行。但是，我不能让blob大开。我尝试使用nslookup为我们的Azure数据仓库查找出站ip，并将值放入存储

运行Spark集群的Azure数据库中对Azure Blob存储的需求

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档