当前位置: 首页 > 知识库问答 >
问题:

如何读取XML文件Azure Databricks Spark

上官飞
2023-03-14

我正在寻找MSDN论坛上的一些信息,但找不到一个好的论坛/在spark网站上阅读时,我有暗示在这里我会有更好的机会。因此,最重要的是,我想读取一个 Blob 存储,其中有一个连续的 XML 文件源,所有小文件,最后我们将这些文件存储在 Azure DW 中。使用 Azure 数据砖,我可以使用 Spark 和 python,但我找不到“读取”xml 类型的方法。一些示例脚本使用了一个库 xml.etree.元素树,但我无法导入它。因此,任何帮助我获得良好方向的帮助都是值得赞赏的。

共有3个答案

于捷
2023-03-14

我有一个在数据库中读取xml文件的解决方案:

安装这个库:com.databricks:xml_2.12:0.11.0使用这个(10.5(包括Apache Spark 3.2.1,Scala 2.12))群集html" target="_blank">配置。

使用此命令(%fs head“”),您将获得rootTag和rowTag。

df=spark.read.format('xml').option(“rootTag”,“orders”).opion(“rowTag””,“purchase_item”).load(“dbfs:/databricks-datasets/retail org/purrchase_orders/purrchse_orders.xml”)

显示(df) 参考图像,用于在数据砖中读取 xml 文件的解决方案

后化
2023-03-14

我发现这个真的很有帮助。https://github.com/raveendratal/PysparkTelugu/blob/master/Read_Write_XML_File.ipynb

他也有一个youtube来走过台阶。

总之,有2种方法:

  1. 在“库”选项卡处安装到您的数据库群集中。
  2. 通过在笔记本本身中启动Spark-shell来安装它。
谯和煦
2023-03-14

一种方法是使用数据砖火花-xml库:

  1. 将spark xml库导入工作区https://docs.databricks.com/user-guide/libraries.html#create-a-library(在maven/sark包部分搜索spark-xml并导入它)
  2. 将库连接到群集https://docs.databricks.com/user-guide/libraries.html#attach-a库到a群集
  3. 使用笔记本中的以下代码读取xml文件,其中“note”是我的xml文件的根

xmldata=spark.read.format('xml').option(“rootTag”,“note”).load('dbfs:/mnt/mydatafolder/xmls/note.xml')

例子:

 类似资料:
  • 问题内容: EMF = Eclipse建模框架 我必须在一个课堂项目中使用EMF。我正在尝试了解如何使用EMF执行以下操作: 读取XML, 将值放入对象。 使用ORM将对象中的值持久保存到数据库中。-完成 使用ORM从数据库获取数据并生成XML。 我需要使用EMF(不知道是什么)和JPA(完成)来完成所有这些操作。 我使用过JAXB,我知道,可以使用JAXB完成,但是(EMF == JAXB)怎么

  • 问题内容: 我努力了: 找到错误消息: 另外,我尝试使用并得到了相同的错误消息,甚至使用beanshell脚本也是如此: 问题答案: 尝试以下方法: 将Beanshell Sampler添加到您的测试计划 将以下代码放入采样器的“脚本”区域: 将调试采样器和查看结果树侦听器添加到您的测试计划 运行测试 确保Beanshell Sampler为绿色并且已设置变量。如果不是,请查看 jmeter.lo

  • 本文向大家介绍java如何解析/读取xml文件,包括了java如何解析/读取xml文件的使用技巧和注意事项,需要的朋友参考一下 本文实例为大家分享了java解析/读取xml文件的方法,供大家参考,具体内容如下 XML文件 Java 代码: 以上就是本文的全部内容,希望对大家的学习有所帮助。

  • 问题内容: 我需要使用Java读取XML文件。它的内容就像 是否有特殊的阅读器/ JAR,还是应该使用 FileInputStream进行 阅读? 问题答案: 另一个建议:尝试使用Commons消化器。这使您可以使用基于规则的方法非常快速地开发解析代码。有一个教程在这里和图书馆可在这里 我也同意Brian和Alzoid的观点,因为JAXB非常适合快速启动和运行。您可以使用JDK附带的xjc绑定编译

  • 我试图从XML文件中读入一些数据,但遇到了一些问题,我的XML如下所示: 我试图将这些值作为字符串读入Java程序,到目前为止,我已经编写了以下代码: 我正在努力读取和打印id、用户名等的值。

  • 问题内容: 我试图从XML文件中读取一些数据,但遇到麻烦,我拥有的XML如下: 我试图将这些值作为字符串读取到我的Java程序中,到目前为止,我已经编写了以下代码: 我正在努力读取实际的字符串值。 问题答案: 可能的实现之一: 与XML内容一起使用时: 结果并分配给上述和参考。