问题：

启动时运行谷歌数据流作业

马银龙

2023-03-14

我们的Google Cloud数据流管道程序调用了一些动态链接到*的库。所以要运行它，我需要设置linux环境变量LD_LIBRARY_PATH。有一种方法可以做到这一点：https://groups.google.com/forum/#!主题/综合。java。程序员/LOu18 OWAVM，但我想知道是否有一种方法可以在执行管道之前使用一些运行shell脚本的作业来实现这一点？

共有1个答案

濮阳奇逸

2023-03-14

你用JNI做这个吗？在设置JNI代码之前，可以在Java代码中设置环境变量吗？

您可能还想从类路径加载. so文件并将其传递到流中。有可能以这种方式链接. so文件吗？

有关如何查找文件，请参见此处的filesToStage。https://cloud.google.com/dataflow/pipelines/specifying-exec-params

也许这些链接中的建议也可以起作用，您可以打包。jar中的文件：如何在jar中绑定本机库和JNI库？

https://www.adamheinrich.com/blog/2012/12/how-to-load-native-jni-library-from-jar/

类似资料：

如何运行Python谷歌云数据流作业与自定义Docker图像？

我想运行一个Python谷歌云数据流作业与自定义Docker图像。根据文件，这应该是可能的：https://beam.apache.org/documentation/runtime/environments/#testing-自定义图像为了尝试此功能，我使用此公共repo中的文档中的命令行选项设置了基本wordcount示例管道https://github.com/swartchris8/b
谷歌云数据流中的动态分区？

我正在使用dataflow处理存储在GCS中的文件，并写入Bigquery表。以下是我的要求：输入文件包含events记录，每个记录属于一个EventType；需要按EventType对记录进行分区；对于每个eventType输出/写入记录到相应的Bigquery表，每个eventType一个表。每个批处理输入文件中的事件各不相同；我正在考虑应用诸如“GroupByKey”和“Parti
谷歌云数据流作业尚不可用。。在气流中

我正在运行数据流作业从气流。我需要说我是气流的新手。数据流（从气流运行）正在成功运行，但我可以看到气流在获得工作状态时遇到了一些问题，我收到了无限的消息，比如：谷歌云数据流作业尚不可用。。以下是将所有步骤添加到数据流后的日志（我将{project ectID}和{jobID}放在它所在的位置）：你知道这是什么原因吗？我找不到与此问题相关的任何解决方案。我应该提供更多信息吗？这是我在DAG中
导入错误：运行谷歌数据流工作线程时没有名为 idlelib 的模块

我有一个python 2.7脚本，我在本地运行以启动Apache Beam / 谷歌数据流作业（SDK 2.12.0）。该作业从谷歌存储空间中获取一个csv文件，对其进行处理，然后在谷歌数据存储中为每行创建一个实体。剧本运行良好多年...但现在它失败了：我相信这个错误发生在工人级别(而不是本地)。我没有在我的剧本中提到它。为了确保不是我，我在本地安装了所有google-cloud包、apache
谷歌数据流“工作流失败”，没有任何原因

我在谷歌云平台上运行数据流作业，我得到的一个新错误是“工作流失败”，没有任何解释。我得到的日志如下：我该怎么找出哪里出了问题？对象上的权限不应该有问题，因为类似的作业会成功运行。当我试图从谷歌云控制台重新运行模板时，我会收到消息：找不到此模板的元数据文件但是我能够启动模板，现在它成功运行。这可能与超额配额有关吗？我们刚刚增加了数据流的CPU和IP配额，我将并行运行的作业从5个增加到15个，以
谷歌云数据流--从PubSub到Parquet

我正在尝试使用谷歌云数据流将谷歌PubSub消息写入谷歌云存储。PubSub消息采用json格式，我要执行的唯一操作是从json到parquet文件的转换。

启动时运行谷歌数据流作业

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档