当前位置: 首页 > 知识库问答 >
问题:

Azure Database ricks中DBFS的数据大小限制是多少

百里嘉泽
2023-03-14

我在这里读到,AWS数据砖的存储限制为单个文件的5TB,我们可以存储任意数量的文件,那么同样的限制是否适用于Azure数据砖?或者,是否对 Azure 数据砖应用了其他限制?

更新:

@CHEEKATLAPRADEEP感谢您的解释,但是,有人能分享一下背后的原因吗:“我们建议您将数据存储在挂载对象存储中,而不是DBFS根目录中”

我需要在Power BI中使用DirectQuery(因为数据量巨大),而ADLS目前还不支持。

共有2个答案

史同化
2023-03-14

Databricks文档说明:

仅支持大小小于 2GB 的文件。如果使用本地文件 I/O API 读取或写入大于 2GB 的文件,则可能会看到损坏的文件。相反,请使用数据库坐标系 CLI、数据库利用率访问大于 2GB 的文件

你可以在这里阅读更多: https://learn.microsoft.com/en-us/azure/databricks/data/databricks-file-system

堵昊焱
2023-03-14

来自Azure Database ricks最佳实践:不要将任何生产数据存储在默认DBFS文件夹中

重要说明:即使 DBFS 根目录是可写的,我们也建议您将数据存储在挂载的对象存储器中,而不是存储在 DBFS 根目录中。

建议将数据存储在装载的存储帐户中而不是存储在存储帐户中的原因位于ADB工作区中。

原因1:当您通过存储资源管理器在外部使用同一存储帐户时,您没有写入权限。

原因2:不能对另一个ADB工作区使用相同的存储帐户,也不能对Azure Data Factory或Azure synapse工作区使用相同的存储帐户链接服务。

原因 3:将来,你决定使用 Azure 突触工作区而不是 ADB。

原因4:如果你想删除现有的工作空间怎么办。

Databricks文件系统(DBFS)是一个分布式文件系统,安装在Azure Databricks工作区中,在Azure Databricks集群上可用。DBFS是可扩展对象存储(即ADLS第二代)之上的抽象。

对于可以在 Azure 数据湖存储第 2 代中存储的数据量没有限制。

注意:Azure Data Lake Storage Gen2能够存储和服务许多EB的数据。

对于Azure Databricks文件系统(DBFS) -仅支持小于2GB的文件。

注意:如果使用本地文件 I/O API 读取或写入大于 2GB 的文件,则可能会看到损坏的文件。相反,请使用 DBFS 命令行管理单元、数据库残点或火花 API 访问大于 2GB 的文件,或使用 /dbfs/ml 文件夹。

对于Azure存储-最大存储帐户容量为5 PiB PB。

下表描述了Azure通用v1、v2、Blob存储和块Blob存储帐户的默认限制。入口限制是指发送到存储帐户的所有数据。出口限制是指从存储帐户接收的所有数据。

注意:单个块blob的限制是4.75 TB。

 类似资料:
  • 问题内容: 我正在尝试使用jQuery Ajax将页面中的数据数组发送到MVC Action。这是我的jQuery代码: 让我解释一下。我有一个动态生成的HTML表,我需要将此数据存储到数据库中。在jQuery中,我遍历表有一个循环,我将数组中每一行的数据存储起来。然后,我使用Ajax将这些数据传递到MVC Action中。 这是我的问题开始的地方…我已经意识到有时会按预期进行,但是有时我会从Aj

  • 问题内容: 在HighChart中,我需要针对x和y轴绘制一系列数据。HighChart希望数据为json格式。即[[x,y],[x,y]……[x,y]]。其中x和y是时间(1392345000-Unix纪元格式)和值(49.322)。因此,我正在进行ajax调用以获取数据,并成功将json返回的数据渲染为highchart。在大多数情况下,即,如果data([x,y])的计数低于87500行,则

  • 我正在使用在我的客户端应用程序中执行以及 最大数据包大小限制也存在于中,即?但是我可以使用中的发送大于最大数据包大小的数据块 这是怎么运作的?这是因为是基于流的,负责在较低层创建数据包吗?有什么方法可以增加UDP中的最大数据包大小吗? 当我在客户端读取时,我从服务器端发送的UDP数据包的一些字节是否可能丢失?如果是,那么有没有办法只检测UDP客户端的损失?

  • 问题内容: 对不起,如果重复的话,我认为可以,但是找不到任何东西。 我有一个Flex应用程序,我正在通过IE将数据发布回php / mysql服务器。我还没有遇到任何问题,但是提前知道这一点可以为我省去很多麻烦和工作。通过http发布数据有大小限制吗? 而这一切都是我可以在网上找到的。因此, 请将 答案限制在经过个人测试/验证的数字上。 我想回发一个可能很大的XML字符串(比如说最多5mb)。 如

  • 问题内容: “数据:” URL方案值是否有大小限制?我对流行的Web浏览器中的限制感兴趣。换句话说,多久可以成为或? 问题答案: 简短答案:数据URI限制有所不同。 有很多答案。正如5年前提出的问题一样,大多数问题由于过时而现在不正确,但是这个问题排在Google结果“数据URI限制”的顶部。数据URI现在得到广泛支持,并且IE 7/8不再是相关的浏览器。下面有许多参考文献,因为今天的答案是微妙的

  • 问题内容: 我想限制a的最大大小,以对正在实现的各种哈希算法进行度量。我在的一个重载构造函数中查看了loadfactor 。 我尝试在构造函数中将loadFactor设置为0.0f(这意味着我不希望HashMap的大小从EVER增大),但将此无效: 还有另一种方法来限制它的大小,使其永远不会增长吗? 问题答案: 有时越简单越好。