我们的Google Cloud数据流管道程序调用了一些动态链接到*的库。所以要运行它,我需要设置linux环境变量LD_LIBRARY_PATH。有一种方法可以做到这一点:https://groups.google.com/forum/#!主题/综合。java。程序员/LOu18 OWAVM,但我想知道是否有一种方法可以在执行管道之前使用一些运行shell脚本的作业来实现这一点?
你用JNI做这个吗?在设置JNI代码之前,可以在Java代码中设置环境变量吗?
您可能还想从类路径加载. so文件并将其传递到流中。有可能以这种方式链接. so文件吗?
有关如何查找文件,请参见此处的filesToStage。https://cloud.google.com/dataflow/pipelines/specifying-exec-params
也许这些链接中的建议也可以起作用,您可以打包。jar中的文件:如何在jar中绑定本机库和JNI库?
https://www.adamheinrich.com/blog/2012/12/how-to-load-native-jni-library-from-jar/
我想运行一个Python谷歌云数据流作业与自定义Docker图像。 根据文件,这应该是可能的:https://beam.apache.org/documentation/runtime/environments/#testing-自定义图像 为了尝试此功能,我使用此公共repo中的文档中的命令行选项设置了基本wordcount示例管道https://github.com/swartchris8/b
我正在使用dataflow处理存储在GCS中的文件,并写入Bigquery表。以下是我的要求: 输入文件包含events记录,每个记录属于一个EventType; 需要按EventType对记录进行分区; 对于每个eventType输出/写入记录到相应的Bigquery表,每个eventType一个表。 每个批处理输入文件中的事件各不相同; 我正在考虑应用诸如“GroupByKey”和“Parti
我正在运行数据流作业从气流。我需要说我是气流的新手。数据流(从气流运行)正在成功运行,但我可以看到气流在获得工作状态时遇到了一些问题,我收到了无限的消息,比如: 谷歌云数据流作业尚不可用。。 以下是将所有步骤添加到数据流后的日志(我将{project ectID}和{jobID}放在它所在的位置): 你知道这是什么原因吗?我找不到与此问题相关的任何解决方案。我应该提供更多信息吗? 这是我在DAG中
我有一个python 2.7脚本,我在本地运行以启动Apache Beam / 谷歌数据流作业(SDK 2.12.0)。该作业从谷歌存储空间中获取一个csv文件,对其进行处理,然后在谷歌数据存储中为每行创建一个实体。剧本运行良好多年...但现在它失败了: 我相信这个错误发生在工人级别(而不是本地)。我没有在我的剧本中提到它。为了确保不是我,我在本地安装了所有google-cloud包、apache
我在谷歌云平台上运行数据流作业,我得到的一个新错误是“工作流失败”,没有任何解释。我得到的日志如下: 我该怎么找出哪里出了问题?对象上的权限不应该有问题,因为类似的作业会成功运行。当我试图从谷歌云控制台重新运行模板时,我会收到消息: 找不到此模板的元数据文件 但是我能够启动模板,现在它成功运行。这可能与超额配额有关吗?我们刚刚增加了数据流的CPU和IP配额,我将并行运行的作业从5个增加到15个,以
我正在尝试使用谷歌云数据流将谷歌PubSub消息写入谷歌云存储。PubSub消息采用json格式,我要执行的唯一操作是从json到parquet文件的转换。