问题：

数据流管道和pubsub模拟器

齐昊

2023-03-14

我正在尝试设置我的开发环境。我一直在使用pubsub模拟器进行开发和测试，而不是在生产中使用谷歌云pubsub。为此，我设置了以下环境变量：

export PUBSUB_EMULATOR_HOST=localhost:8586

这适用于python google pubsub库，但当我切换到使用java apache beam进行google数据流时，管道仍然指向生产google pubsub。管道上是否有需要设置的设置、环境变量或方法，以便管道读取本地pubsub仿真器？

共有2个答案

卢光远

2023-03-14

您也可以在配置文件中指定此选项

pubsubRootUrl=http://localhost:8185

或通过程序参数（尚未测试，但也应有效）

-Dexec.args="--pubsubRootUrl=http://localhost:8185"

http:///code>需要符合Java URL格式

余弘毅

2023-03-14

我在PubsubOptions界面中找到了解决方案，并将其扩展为我自己的PipelineOptions实现。然后使用setpubsetrooturl（）将其设置为localhost:emulator的端口。

类似资料：

云数据流、PubSub和Bigquery问题

我想使用Cloud Dataflow,PubSub和Bigquery将tableRow写入PubSub消息,然后将它们写入Bigquery。我希望表名、项目id和数据集id是动态的。我在internet上看到下面的代码，我不明白如何传递数据行参数。先谢谢你，盖尔
流式Pubsub数据丰富固定BigQuery数据的数据流模板/模式

由于我刚接触DataFlow/Beam，概念还不太清楚（或者至少我在开始编写代码时有困难），我有很多问题：什么是最好的模板或模式，我可以用来做到这一点？我应该先执行BigQuery的PTransform（然后执行PubSub的PTransform）还是先执行PubSub的PTransform？我怎么做加入？比如？ PubSub的最佳窗口设置是什么？BigQuery的PTransform部分的窗
用Groovy模拟Jenkins管道

我对Jenkins pipeline非常陌生，我正在Groovy中构建一个小型共享库<在这种情况下，我试图提出一些单元测试，然后我必须模拟管道对象。基本上，我有一个Groovy类，其中包含一个方法，该方法使用凭据执行一些操作：因此，当谈到这个方法的单元测试时，我创建了一个PipelineMock Groovy类来（尝试）用凭据和用户名密码模拟
在CI管道中部署数据流

我使用beam SDK用python编写了一个Google数据流管道。有一些文档介绍了我如何在本地运行它，并设置runner标志以在数据流上运行它。我现在正尝试将其自动部署到CI管道（bitbucket管道，但并不真正相关）。有关于如何“运行”管道的文档，但没有真正的“部署”管道。我测试过的命令如下：这将运行作业，但因为它正在流式传输，所以永远不会返回。它还在内部管理打包并推送到存储桶。我知道
NotSerializableException：Google云数据流管道中的org.apache.avro.io.DecoderFactory

但是当我运行代码时，我会遇到以下异常：你有什么想法会导致这种情况吗？
运行数据流管道时不显示模板文件

我要运行的命令是然而，我确实得到了一个关于选项的警告： C:\python38\lib\site-packages\apache_beam\io\gcp\bigquery.py:1677:BeamDeprecationWarning:options自第一个稳定发布以来就不推荐使用。不支持对.options的引用实验=p.options.view_as(DebugOptions).exportat

数据流管道和pubsub模拟器

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档