当前位置: 首页 > 知识库问答 >
问题:

预计ETA将在使用python的apache beam GCP数据流管道中使用管道I/O和运行时参数?

阚元白
2023-03-14

只是想知道新版本(3.X)的python是否提供了更多的管道I/O和运行时参数。如果我是正确的,那么当前ApacheBeam只提供基于文件的IOs:使用python时提供textio、avroio、tfrecordio。但在Java中,我们有更多的选项,如基于文件的IOs、BigQueryIO、BigtableIO、PubSubIO和SpanRio。

在我的需求中,我想使用Python 3在GCP数据流管道中使用BigQueryIO。X,但目前还不可用。有人有关于ETA的更新吗?它什么时候可以通过阿帕奇光束获得。

共有2个答案

万修然
2023-03-14

BigQueryIO已经在Apache Beam Python SDK中使用了相当长的一段时间。

还有一个Pub/Sub IO和BigTable(write)可用。就在我们发言的时候,我们正在进行这项工作。

这一页有更多的细节https://beam.apache.org/documentation/io/built-in/

更新:

根据OP提供的更多细节,事实证明在BigQuery查询字符串中确实不支持使用值提供程序。

这已经在下面的PR:https://github.com/apache/beam/pull/11040中得到了纠正,并且很可能是2.21.0版本的一部分。

更新2:Apache Beam的2.20.0版本中添加了此新功能https://beam.apache.org/blog/2020/04/15/beam-2.20.0.html

希望它能解决你的问题!

斜向文
2023-03-14

Python3的BigTable连接器已经开发了一段时间了。目前,还没有ETA,但是您可以按照来自官方ApacheBeam存储库的相关请求进行进一步更新。

 类似资料:
  • 想象一个简单的Google数据流管道。在这个管道中,您使用apache beam函数从BQ读取数据,并根据返回的pcollection更新这些行 该管道的问题是,当您读取表(beam.map)时,将对返回的pcollection中的每个项执行UpdateBQ 可能的解决办法

  • 传递参数 链接管道 我们可以将多个管道连接在一起,以便在一个表达式中使用多个管道。

  • 我们在datalab中运行了一个Python管道,它从google云存储(导入google.datalab.storage)中的存储桶中读取图像文件。最初我们使用DirectRunner,效果很好,但现在我们尝试使用DataflowRunner,并且出现导入错误。即使在管道运行的函数中包含“import google.datalab.storage”或其任何变体,也会出现错误,例如“没有名为'da

  • 问题内容: 我想在一个定义管道构建作业的框架中利用Jenkins 的现有Mailer插件。给定以下简单的失败脚本,我希望每个构建版本都会收到一封电子邮件。 构建的输出为: 如您所见,它确实记录了它在失败后立即执行管道的过程,但是没有生成电子邮件。 利用自由工作的其他自由式工作中的电子邮件,只是通过管道工作来调用。 这与Jenkins 2.2和mailer 1.17一起运行。 是否有其他机制可以用来

  • 我想使用jenkins中git的以下管道脚本 如何从git正确运行Jenkins脚本?

  • 我使用beam SDK用python编写了一个Google数据流管道。有一些文档介绍了我如何在本地运行它,并设置runner标志以在数据流上运行它。 我现在正尝试将其自动部署到CI管道(bitbucket管道,但并不真正相关)。有关于如何“运行”管道的文档,但没有真正的“部署”管道。我测试过的命令如下: 这将运行作业,但因为它正在流式传输,所以永远不会返回。它还在内部管理打包并推送到存储桶。我知道