当前位置: 首页 > 知识库问答 >
问题:

使用Beam Python SDK读取复杂XML

夹谷英奕
2023-03-14

如何最好地为Python编写源代码SDK它应该读取嵌套的XML文件并将内容分成多行。现有的源代码都在行级别上工作,这不是我在XML上下文中需要的。

这是一组XML文件,每个文件都构成一个交易,必须分解为多个记录(订单行、付款等)。

共有1个答案

李永寿
2023-03-14

您可以使用此模式读取TensorFlow记录,作为编写自己的源代码的模型:https://github.com/apache/beam/blob/master/sdks/python/apache_beam/io/tfrecordio.py

可以使用Python将XML解析为元素。

请记住,源将写入只能包含一种类型元素的PCollection,因此您的源无法发出某些付款记录和某些订单记录。您需要发出单个事务记录,或者围绕每个记录子类型创建一个包装器,稍后再对内容进行过滤。

 类似资料:
  • 我得到了一个复杂的JSON字符串,如下所示。 这还不完整。但这怎么读呢?

  • 我想把一些JSON解析成一个SQL的INSERT,但是,由于不同级别的数据片段不同,很难得到所有的数据。 以下是JSON文件: 到目前为止,这就是我所用的Python,它可以工作: 结果是: 这有点对,但我需要插入看起来像: 我看到了一些例子:例1 但我一直没能让它为我工作。 @斯科尔05 我想你的意思是:但它导致了一个错误:AttributeError:'dict'对象没有属性'iteritem

  • 作者:徐飞 在dva的官方仓库里,提供了上手教程,讲述了dva的一些基本概念。到了真实的业务开发过程中,会遇到许许多多不能用那些基本操作覆盖的场景,本文尝试列举一些常见的需求在dva中的实现方式。 动态加载model 有不少业务场景下,我们可能会定义出很多个model,但并不需要在应用启动的时候就全部加载,比较典型的是各类管理控制台。如果每个功能页面是通过路由切换,互相之间没有关系的话,通常会使用

  • 如何编写java类来读取此XMl文件 我试过这样 但我得到了这个错误 请帮我解决这个问题。。。 非常感谢。

  • 问题内容: 我目前正在基于这样的单行弹性查询(示例)在过滤中获取RDD : 现在,如果我们的搜索查询变得复杂,例如: 我是否仍可以将该查询转换为 嵌入式 弹性查询以与 esJsonRDD 一起使用?或者是有反正上面的查询仍可使用 的是 与 esJsonRDD ?如果没有,在Spark中获取此类RDD的更好方法是什么? 因为esJsonRDD似乎只接受内联(一行)弹性查询。 问题答案: 使用三引号:

  • 问题内容: 我正在使用jQuery创建和发送JSON对象,但无法弄清楚如何使用org.json.simple库在Ajax Servlet中正确解析它。 我的jQuery代码如下: 在servlet中,当我使用request.getParameterNames()并将其打印出到控制台时,我将得到参数名称等,但是我无法以任何方式解析JSON Array房间。我尝试解析由或变体返回的对象,但是它们都返回