当前位置: 首页 > 知识库问答 >
问题:

数据砖自动加载器文件处理问题

华展鹏
2023-03-14

我已经在我的容器中压缩了文件,我每天都会得到一个或多个文件,当它们进来时,我想处理这些文件。我有一些问题。

>

  • 我可以使用Databricks自动加载功能来处理zip文件吗?Autoloader是否支持zip文件?

    使用Autoloader需要启用哪些设置?我有我的容器和sas令牌。

    一旦zip文件被处理(解压缩,读取zip文件中的每个文件),我就不应该再次读取zip。当我使用自动加载器时,我该怎么做?是否有任何特定设置?

    有样品吗?我是这个领域的新手,想获得更多的信息。

  • 共有1个答案

    祖翰音
    2023-03-14

    不幸的是,无法使用Azure DataBrick处理Zip文件。自动加载程序支持两种模式来检测新文件:<code>目录列表</code>和<code>文件</code>通知。

    自动加载程序提供了一个名为 cloud 文件的结构化流式处理源。给定云文件存储上的输入目录路径,cloudFiles 源会在新文件到达时自动处理它们,还可以选择处理该目录中的现有文件。

    Auto Loader可以扩展到从包含数十亿个需要回填的文件的存储帐户加载数据到一小时内加载数百万个文件的管道。

    要了解更多信息,您可以参考这个微软文档

     类似资料:
    • 我是这个Databricks自动加载器的新手,我们有一个要求,我们需要通过Databricks自动加载器处理从AWS s3到delta表的数据。我正在测试这个自动加载程序,所以我遇到了重复的问题,即如果我上传一个文件名为emp_09282021.csv的文件,该文件与emp_09272021.csv文件具有相同的数据,那么它没有检测到任何重复,它只是简单地插入它们,所以如果我在emp_092720

    • 我正在使用 Azure Blob 存储来存储数据,并使用装载将此数据馈送到自动加载程序。我正在寻找一种方法来允许自动加载器从任何装载加载新文件。假设我的装载中有这些文件夹: mnt/ ├─ blob_container_1 ├─ blob_container_2 当我使用 .load('/mnt/') 时,没有检测到新文件。但是当我单独考虑文件夹时,它像.load('/mnt/blob_conta

    • 译者:yportne13 作者:Sasank Chilamkurthy 在解决机器学习问题的时候,人们花了大量精力准备数据。pytorch提供了许多工具来让载入数据更简单并尽量让你的代码的可读性更高。在这篇教程中,我们将学习如何加载和预处理/增强一个有价值的数据集。 在运行这个教程前请先确保你已安装以下的包: scikit-image: 图形接口以及变换 pandas: 便于处理csv文件 fro

    • 现在,数据库里克斯自动加载程序需要一个目录路径,所有文件都将从该目录加载。但是,如果一些其他类型的日志文件也开始进入该目录——有没有办法让自动加载程序在准备数据帧时排除这些文件?

    • 我已经试着让psr-4自动加载工作一个多星期了,但没有成功。 我的文件结构如下: 我创建了psr-4自动加载功能,如下所示: 在使用作曲家转储-自动加载-0后,在我的session.php类中,我给出了命名空间: 然后我需要自动加载器,并使用use函数将会话类命名如下: 打开index.php页面后,我得到一个 致命错误:在第10行的/var/www/test/Project/index.php中

    • 在当前目录下通过文件名查找一个文件,使用类似于这样的命令:find . -iname '*something*'。在所有路径下通过文件名查找文件,使用 locate something (但注意到 updatedb 可能没有对最近新建的文件建立索引,所以你可能无法定位到这些未被索引的文件)。 使用 ag 在源代码或数据文件里检索(grep -r 同样可以做到,但相比之下 ag 更加先进)。 将 H