预计ETA将在使用python的apache beam GCP数据流管道中使用管道I/O和运行时参数？

阚元白

2023-03-14

只是想知道新版本（3.X）的python是否提供了更多的管道I/O和运行时参数。如果我是正确的，那么当前ApacheBeam只提供基于文件的IOs：使用python时提供textio、avroio、tfrecordio。但在Java中，我们有更多的选项，如基于文件的IOs、BigQueryIO、BigtableIO、PubSubIO和SpanRio。

在我的需求中，我想使用Python 3在GCP数据流管道中使用BigQueryIO。X，但目前还不可用。有人有关于ETA的更新吗？它什么时候可以通过阿帕奇光束获得。

共有2个答案

万修然

2023-03-14

BigQueryIO已经在Apache Beam Python SDK中使用了相当长的一段时间。

还有一个Pub/Sub IO和BigTable（write）可用。就在我们发言的时候，我们正在进行这项工作。

这一页有更多的细节https://beam.apache.org/documentation/io/built-in/

更新：

根据OP提供的更多细节，事实证明在BigQuery查询字符串中确实不支持使用值提供程序。

这已经在下面的PR：https://github.com/apache/beam/pull/11040中得到了纠正，并且很可能是2.21.0版本的一部分。

更新2：Apache Beam的2.20.0版本中添加了此新功能https://beam.apache.org/blog/2020/04/15/beam-2.20.0.html

希望它能解决你的问题！

斜向文

2023-03-14

Python3的BigTable连接器已经开发了一段时间了。目前，还没有ETA，但是您可以按照来自官方ApacheBeam存储库的相关请求进行进一步更新。

类似资料：

数据流：使用python管道更新BigQuery行

想象一个简单的Google数据流管道。在这个管道中，您使用apache beam函数从BQ读取数据，并根据返回的pcollection更新这些行该管道的问题是，当您读取表（beam.map）时，将对返回的pcollection中的每个项执行UpdateBQ 可能的解决办法
管道 - 使用管道

传递参数链接管道我们可以将多个管道连接在一起，以便在一个表达式中使用多个管道。
如何在从datalab运行的数据流管道中使用google云存储

我们在datalab中运行了一个Python管道，它从google云存储（导入google.datalab.storage）中的存储桶中读取图像文件。最初我们使用DirectRunner，效果很好，但现在我们尝试使用DataflowRunner，并且出现导入错误。即使在管道运行的函数中包含“import google.datalab.storage”或其任何变体，也会出现错误，例如“没有名为'da
在管道工作流程中使用Jenkins'Mailer'

问题内容：我想在一个定义管道构建作业的框架中利用Jenkins 的现有Mailer插件。给定以下简单的失败脚本，我希望每个构建版本都会收到一封电子邮件。构建的输出为：如您所见，它确实记录了它在失败后立即执行管道的过程，但是没有生成电子邮件。利用自由工作的其他自由式工作中的电子邮件，只是通过管道工作来调用。这与Jenkins 2.2和mailer 1.17一起运行。是否有其他机制可以用来
使用Git中的代码运行Jenkins管道

我想使用jenkins中git的以下管道脚本如何从git正确运行Jenkins脚本？
在CI管道中部署数据流

我使用beam SDK用python编写了一个Google数据流管道。有一些文档介绍了我如何在本地运行它，并设置runner标志以在数据流上运行它。我现在正尝试将其自动部署到CI管道（bitbucket管道，但并不真正相关）。有关于如何“运行”管道的文档，但没有真正的“部署”管道。我测试过的命令如下：这将运行作业，但因为它正在流式传输，所以永远不会返回。它还在内部管理打包并推送到存储桶。我知道

预计ETA将在使用python的apache beam GCP数据流管道中使用管道I/O和运行时参数？

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档