问题：

在 Azure 数据湖 Gen1 中解压缩文件而不将文件移动到 Azure 数据砖文件系统的简单且最佳的方法是什么？

太叔炎彬

2023-03-14

解压Azure数据湖Gen1中的文件而不将文件移动到Azure Database ricks文件系统的最佳方法是什么？目前，我们使用Azure数据库进行计算，storage.We有将数据移动到DBFS的限制。

已在 DBFS 中挂载 ADLS，但不确定如何继续

共有1个答案

梁磊

2023-03-14

不幸的是，在Databricks中不支持zip文件，原因是Hadoop不支持将zip文件作为压缩编解码器。虽然GZip、BZip2和其他支持的压缩格式的文本文件可以配置为在Spark中自动解压缩，只要它具有正确的文件扩展名，您必须执行其他步骤来读取zip文件。Databricks文档中的示例在操作系统级别（Ubuntu）上使用unzip在驱动程序节点上进行解压缩。

如果您的数据源不能以Spark支持的压缩编解码器提供数据，最好的方法是使用Azure数据工厂复制活动。Azure Data Factory支持更多压缩编解码器，也支持zip。

源的类型属性定义如下：

"typeProperties": {
        "compression": {
            "type": "ZipDeflate",
            "level": "Optimal"
        },

您还可以使用Azure数据工厂将您的Database ricks管道与Database ricks活动进行协调。

类似资料：

将Azure application Insight日志文件导出到Azure数据湖存储

我可以通过azure application insight跟踪我的应用程序日志文件，还可以导出xls表http://dailydotnettips.com/2015/12/04/export-application-insights-data-to-excel-its-just-a-single-click/，但我需要将我的所有日志文件存储到azure data lake storage中，以便
解压缩数据流中的.tar文件？

我的GCP云存储桶中有很多.tar文件。每个.tar文件都有多个图层。我想使用GCP数据流解压缩这些.tar文件，并将它们放回另一个GCP存储桶中。我找到了Google提供的用于批量解压缩云存储文件的实用工具模板，但它不支持.tar文件扩展名。也许我应该在上传到云端之前尝试解压文件，或者Beam中是否存在其他内容？每个tar文件未经压缩大约有15 TB。
无法在Azure数据湖中递归删除文件夹

我想删除Azure Data Lake中的一个文件夹。该文件夹包含子文件夹和文件。这就是我尝试过的：它给了我以下错误：
Julia：解压缩压缩文件中的压缩文件

我正在使用Julia的ZipFile包来提取和处理csv文件。没问题，但是当我遇到zip文件中的zip文件时，我也想处理它，但是遇到了一个错误。 Julia ZipFile文档如下：https://zipfilejl.readthedocs.io/en/latest/ 对如何做到这一点有什么想法吗？
将文件从Azure文件存储移动到Azure Blob存储

我相当愚蠢地上传了一个vhd到Azure文件存储，以为我可以从它创建一个虚拟机，却发现它真的需要在Blob存储中。我知道我可以再上传一次，但它非常大，我的上传速度非常慢。我的问题是-我可以将文件从文件存储移动到blob存储，而无需再次下载/上传吗？也就是说，Azure门户UI中是否有任何东西可以执行此操作，甚至是PowerShell命令？
将文件存储在数据库与文件系统中

问题内容：我的一位客户要求为成千上万种不同格式（例如pdf，doc，docx等）的文档提供文档管理系统。我的问题是在数据库或文件系统中存储此文件的最佳方法是什么？两种方法之间如何轻松保护文档？快速检索文件是关键要求。我正在使用mysql如果有帮助问候。问题答案：您可能希望将其直接存储到文件系统中。使用文件系统时，请注意：机密性：将文档放在Apache文档根目录之外。然后，您的PH

在 Azure 数据湖 Gen1 中解压缩文件而不将文件移动到 Azure 数据砖文件系统的简单且最佳的方法是什么？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档