当前位置: 首页 > 知识库问答 >
问题:

如何在databricks中读取挂载的dbc文件?

陶乐生
2023-03-14

我尝试读取数据块中的dbc文件(从s3存储桶装载)。文件路径是:

file_location="dbfs:/mnt/airbnb-dataset-ml/dataset/airbnb.dbc"

如何使用火花读取此文件?

我尝试了下面的代码:

df=spark.read.parquet(file_location)

但它生成并错误:

AnalysisException: Unable to infer schema for Parquet. It must be specified manually.

谢谢帮忙!

共有1个答案

严昊昊
2023-03-14

我尝试了下面的代码:df=spark.read。拼花(file_location)但它会生成错误:

您正在使用<code>spark.read。拼花,但要读取dbcfile。这样不行。

不要使用镶木地板,而是使用负载。在路径参数中提供文件名(不带 .dbc 扩展名)的文件路径,在格式参数中提供 dbc

尝试以下代码:

< code>df=spark.read.load(path= '

例如:<code>df=spark.read。加载(路径=“/mnt/airnb-dataset ml/dataset/airnb”,格式=“dbc”)

 类似资料:
  • 我正在寻找MSDN论坛上的一些信息,但找不到一个好的论坛/在spark网站上阅读时,我有暗示在这里我会有更好的机会。因此,最重要的是,我想读取一个 Blob 存储,其中有一个连续的 XML 文件源,所有小文件,最后我们将这些文件存储在 Azure DW 中。使用 Azure 数据砖,我可以使用 Spark 和 python,但我找不到“读取”xml 类型的方法。一些示例脚本使用了一个库 xml.e

  • 问题内容: 我在python中将selenium与webdriver一起使用,以从站点下载csv文件。该文件将下载到指定的下载目录中。这是我的代码的概述 我需要将此csv的内容发送到终端。许多具有随机名称的相似文件将被下载到同一文件夹中,因此无法通过文件名访问文件,因为我不知道它将是什么提前 问题答案: 这个答案是由以前的堆栈溢出问题,答案以及本文中的注释组成的,所以谢谢大家。 我为这个解决方案结

  • 我正在运行此命令以从普通群集(未安装hadoop)中读取 Azure 数据砖中的数据。 我得到了这个错误 你能建议我需要安装什么样的jar来让它工作吗

  • 问题内容: 是否可以在AngularJS中读取文件?我想将文件放入HTML5画布进行裁剪。 我在考虑使用指令吗?这是我要放入指令中的javascript代码: 问题答案: 是的,指令是正确的方法,但看起来有些不同: 工作示例:http : //plnkr.co/edit/y5n16v?p=preview 感谢lalalalalmbda提供此链接。

  • 我的数据位于azure cosmos数据库中,我已经将数据集挂载到azure Databricks上。 我可以使用pandas读取csv文件,并将其加载到spark DataFrame中。

  • 问题内容: 我试图将文本文件加载到我的JavaScript文件中,然后从该文件中读取行以获取信息,我尝试使用FileReader,但它似乎无法正常工作。有人可以帮忙吗? 问题答案: 是的,可以使用FileReader,我已经做了一个示例,这是代码: 最后,我只是读了其他一些吸引我的答案,但正如他们所建议的那样,您可能正在寻找使您能够从JavaScript文件所在的服务器(或设备)加载文本文件的代码