当前位置: 首页 > 知识库问答 >
问题:

在 Azure 数据湖 Gen1 中解压缩文件而不将文件移动到 Azure 数据砖文件系统的简单且最佳的方法是什么?

太叔炎彬
2023-03-14

解压Azure数据湖Gen1中的文件而不将文件移动到Azure Database ricks文件系统的最佳方法是什么?目前,我们使用Azure数据库进行计算,storage.We有将数据移动到DBFS的限制。

已在 DBFS 中挂载 ADLS,但不确定如何继续

共有1个答案

梁磊
2023-03-14

不幸的是,在Databricks中不支持zip文件,原因是Hadoop不支持将zip文件作为压缩编解码器。虽然GZip、BZip2和其他支持的压缩格式的文本文件可以配置为在Spark中自动解压缩,只要它具有正确的文件扩展名,您必须执行其他步骤来读取zip文件。Databricks文档中的示例在操作系统级别(Ubuntu)上使用unzip在驱动程序节点上进行解压缩。

如果您的数据源不能以Spark支持的压缩编解码器提供数据,最好的方法是使用Azure数据工厂复制活动。Azure Data Factory支持更多压缩编解码器,也支持zip。

源的类型属性定义如下:

"typeProperties": {
        "compression": {
            "type": "ZipDeflate",
            "level": "Optimal"
        },

您还可以使用Azure数据工厂将您的Database ricks管道与Database ricks活动进行协调。

 类似资料:
  • 我可以通过azure application insight跟踪我的应用程序日志文件,还可以导出xls表http://dailydotnettips.com/2015/12/04/export-application-insights-data-to-excel-its-just-a-single-click/,但我需要将我的所有日志文件存储到azure data lake storage中,以便

  • 我的GCP云存储桶中有很多.tar文件。每个.tar文件都有多个图层。我想使用GCP数据流解压缩这些.tar文件,并将它们放回另一个GCP存储桶中。 我找到了Google提供的用于批量解压缩云存储文件的实用工具模板,但它不支持.tar文件扩展名。 也许我应该在上传到云端之前尝试解压文件,或者Beam中是否存在其他内容? 每个tar文件未经压缩大约有15 TB。

  • 我想删除Azure Data Lake中的一个文件夹。该文件夹包含子文件夹和文件。这就是我尝试过的: 它给了我以下错误:

  • 我正在使用Julia的ZipFile包来提取和处理csv文件。没问题,但是当我遇到zip文件中的zip文件时,我也想处理它,但是遇到了一个错误。 Julia ZipFile文档如下:https://zipfilejl.readthedocs.io/en/latest/ 对如何做到这一点有什么想法吗?

  • 我相当愚蠢地上传了一个vhd到Azure文件存储,以为我可以从它创建一个虚拟机,却发现它真的需要在Blob存储中。 我知道我可以再上传一次,但它非常大,我的上传速度非常慢。 我的问题是-我可以将文件从文件存储移动到blob存储,而无需再次下载/上传吗?也就是说,Azure门户UI中是否有任何东西可以执行此操作,甚至是PowerShell命令?

  • 问题内容: 我的一位客户要求为成千上万种不同格式(例如pdf,doc,docx等)的文档提供文档管理系统。我的问题是在数据库或文件系统中存储此文件的最佳方法是什么?两种方法之间如何轻松保护文档? 快速检索文件是关键要求。 我正在使用mysql如果有帮助 问候。 问题答案: 您可能希望将其直接存储到文件系统中。 使用文件系统时,请注意: 机密性: 将文档放在Apache文档根目录之外。然后,您的PH