当前位置: 首页 > 知识库问答 >
问题:

读取azure databricks中包含拼花文件子文件夹的文件夹时出错

岳朝
2023-03-14

我正在读取一个文件夹在adls在azure数据库,其中包含镶木地板文件的子文件夹。

path-base\u文件夹/文件名/

filename有一些子文件夹,如2020、2021,这些文件夹也有月份和日期的子文件夹。

所以实际拼花文件的路径类似于-base\u folder/filename/2020/12/01/part11111。拼花地板

我也尝试了下面的胎面命令,但它显示了同样的错误。无法推断拼花的架构。它必须手动指定

请帮助我在一个数据框中读取所有子文件夹中的所有拼花文件。

共有1个答案

裴昕
2023-03-14

>

  • 您的第一个错误:无法推断Parque的架构通常发生在您尝试将空目录读取为parque时。您可以在路径中指定*,它将遍历子目录,请在此处查看:从Pyspark中的多个目录中读取拼花文件

    第二个错误:您使用的是Scala API,您提供的示例是Python。DataFrameReaderAPI不同。参考:Scala-DataFrameReader-Python-DataFrameReader

    尝试使用:

    spark.read.format("parquet").load(landingFolder)
    

    如此处所述:通用加载/保存函数

  •  类似资料:
    • 问题内容: 我正在尝试压缩包含子文件夹的文件夹。尝试压缩名为10-18-2010_4D的文件夹。以上程序以以下异常结束。请提供有关如何解决此问题的建议。 问题答案: 您需要检查文件是否为目录,因为您无法将目录传递给zip方法。 看一下该页面,该页面显示了如何递归压缩给定目录。

    • 如何从资源文件夹的子文件夹中读取文件。 我在资源文件夹中有一些json文件,例如: 现在我想在我的课堂上读到这个 这是我正在尝试的,但是失败了。 不起作用,那么我正在尝试: 这两样东西都不工作。

    • 问题内容: 我有一个名为“数据”的文件夹。此文件夹有一个名为“收件箱”的子文件夹,其中有多个“ .txt”文件。可以修改“数据”文件夹,最后会有多个带有“收件箱”子文件夹和“ .txt”文件的子文件夹。我需要监视“收件箱”文件夹中的“数据”文件夹和“ .txt”文件。我怎样才能做到这一点? INotify只是监视文件夹,并在创建子文件夹时弹出事件。创建“ .txt”文件(在哪个文件夹中)时,如何弹

    • 我已经用Eclipse创建了一个可运行的jar。在我的项目中,我有一个叫做问卷的文件夹,里面有一些我使用的文本文件。当我运行我的可运行jar时,它不起作用,除非我在与jar相同的文件夹中有文件夹调查表。我尝试了一些我在stackoverflow中读到的解决方案,比如将文件夹调查表添加为源文件夹,也可以从Properties->java build path->Libraries->add clas

    • 问题内容: 我如何返回一个包含该文件夹中的所有文件以及子文件夹的文件数组,我的方法仅适用于该文件夹,并且不包括子文件夹。 问题答案: 使用您当前的代码,进行以下调整:

    • 问题内容: 我开发了一个应用程序,可以从用户选择的文件夹中读取文件。它显示每个文件中有多少行代码。我只希望Java文件显示在文件选择器(扩展名为.java的文件)中。下面是我的代码: 我也进行了编辑,但是仍然无法正常工作,请告知请告知如何仅读取扩展名为.java的文件,换句话说,请仅从文件夹中读取java文件,请告知 问题答案: 您需要一个FilenameFilter。这应该为您工作: