当前位置: 首页 > 知识库问答 >
问题:

有没有办法将dbfs(数据库)路径中的csv文件分配给pyspark中的变量?

海岳
2023-03-14

我正在数据库中执行以下代码,将火花数据帧转换为csvdataframe.csv并存储在dbfs路径中。

df.coalesce(1)\
 .write\
 .format("com.databricks.spark.csv")\
 .option("header", "true")\
 .save("dataframe.csv")

这个文件是在dbfs:/dataframe.csv中创建的。我需要为这个文件指定一个文件名,这样我就可以将这个文件附加到邮件中。我正在使用:

文件名=pandas.read_csv("dataframe.csv")

但这给我带来了错误:<code>IOError:文件数据帧。csv不存在

有人能帮我吗?

共有1个答案

白嘉志
2023-03-14

您需要在文件名前面加上/dbfs文件夹,如下所示:

filename = "/dbfs/somefile.csv"
frame = pd.read_csv(filename)

在这里,您将使用Databricks文件系统的本地文件API,这是与这个分布式文件系统交互的几种方式之一。

 类似资料:
  • 我有一个CSV文件,我正在尝试导入MongoDB数据库中的CSV文件。不幸的是,这种体验并没有像我希望的那样工作。CSV文件的内容不相关,因为当我使用MongoDB Compass手动导入它时,没有问题,它按我想要的方式出现。因此,如果可能的话,我试图使用Java和Spring Boot将其从本地文件夹保存到MongoDB,但我找不到任何关于如何这样做的好建议或解释。 我用的是Spring Boo

  • 我正在尝试将位于azure datalake中的csv压缩为zip。该操作是使用datricks中的python代码完成的,我在其中创建了一个挂载点以将dbfs与datalake直接关联。 这是我的代码: 但是我收到了这个错误: 有什么办法吗? 提前感谢。

  • 我想读取Dockerfile中的变量,该变量在文件中定义。有什么办法可以做到这一点吗? 这是我的DockerFile:

  • 问题内容: 我试图找到一种方法来查找数据库中的表的名称(如果存在)。我发现从sqlite cli我可以使用: 然后对于字段: 这显然在python中不起作用。有没有办法用python做到这一点,还是我应该只使用sqlite命令行? 问题答案: 您应该能够从表中访问表名称。 列名不能直接访问。获取它们的最简单方法是查询表并从查询结果中获取列名。

  • 问题内容: 我有一个使用处理程序发布可运行实例的线程。它工作得很好,但是我很好奇我如何将参数传递给Runnable实例使用?也许我只是不了解此功能的工作原理。 为了避免出现“您为什么需要此问题”的问题,我有一个线程化的动画,必须调出UI线程来告诉它实际绘制的内容。 问题答案: 只需使用接受参数的构造函数实现的类就可以了, 您可以使用参数化构造函数创建Runnable类的实例。

  • 我有一个XSD,它定义了几个复杂类型的层次结构(每个类型都是另一个的子类型)。 前任: 我正在寻找只导入复杂类型到列表中。我想我可能可以使用ApacheDigester来做这件事,但是我想知道是否有一些方法可以用JAXB来做这件事。直接解组到对象,然后使用循环来提取缺陷类型是可行的,但似乎需要大量额外的工作。 本质上,我希望能够想出一个解决方案,可以做到如下几点: 我可能会将整个XML文件加载到一