问题：

谷歌云数据流作业尚不可用。。在气流中

拓拔玺

2023-03-14

我正在运行数据流作业从气流。我需要说我是气流的新手。数据流（从气流运行）正在成功运行，但我可以看到气流在获得工作状态时遇到了一些问题，我收到了无限的消息，比如：

谷歌云数据流作业尚不可用。。

以下是将所有步骤添加到数据流后的日志（我将{project ectID}和{jobID}放在它所在的位置）：

[2018-10-01 13:00:13,987] {logging_mixin.py:95} INFO - [2018-10-01 13:00:13,987] {gcp_dataflow_hook.py:128} WARNING - b'INFO: Staging pipeline description to gs://my-project/staging'

[2018-10-01 13:00:13,987] {logging_mixin.py:95} INFO - [2018-10-01 13:00:13,987] {gcp_dataflow_hook.py:128} WARNING - b'Oct 01, 2018 1:00:13 PM org.apache.beam.runners.dataflow.DataflowRunner run'

[2018-10-01 13:00:13,988] {logging_mixin.py:95} INFO - [2018-10-01 13:00:13,988] {gcp_dataflow_hook.py:128} WARNING - b'INFO: To access the Dataflow monitoring console, please navigate to https://console.cloud.google.com/dataflow/jobsDetail/locations/us-central1/jobs/2018-10-01_06_00_12-{jobID}?project={projectID}'

[2018-10-01 13:00:13,988] {logging_mixin.py:95} INFO - [2018-10-01 13:00:13,988] {gcp_dataflow_hook.py:128} WARNING - b'Oct 01, 2018 1:00:13 PM org.apache.beam.runners.dataflow.DataflowRunner run'

[2018-10-01 13:00:13,988] {logging_mixin.py:95} INFO - [2018-10-01 13:00:13,988] {gcp_dataflow_hook.py:128} WARNING - b"INFO: To cancel the job using the 'gcloud' tool, run:"

[2018-10-01 13:00:13,988] {logging_mixin.py:95} INFO - [2018-10-01 13:00:13,988] {gcp_dataflow_hook.py:128} WARNING - b'> gcloud dataflow jobs --project={projectID} cancel --region=us-central1 2018-10-01_06_00_12-{jobID}'

[2018-10-01 13:00:13,990] {logging_mixin.py:95} INFO - [2018-10-01 13:00:13,990] {discovery.py:267} INFO - URL being requested: GET https://www.googleapis.com/discovery/v1/apis/dataflow/v1b3/rest

[2018-10-01 13:00:14,417] {logging_mixin.py:95} INFO - [2018-10-01 13:00:14,417] {discovery.py:866} INFO - URL being requested: GET https://dataflow.googleapis.com/v1b3/projects/{projectID}/locations/us-central1/jobs?alt=json

[2018-10-01 13:00:14,593] {logging_mixin.py:95} INFO - [2018-10-01 13:00:14,593] {gcp_dataflow_hook.py:77} INFO - Google Cloud DataFlow job not available yet..

[2018-10-01 13:00:29,614] {logging_mixin.py:95} INFO - [2018-10-01 13:00:29,614] {discovery.py:866} INFO - URL being requested: GET https://dataflow.googleapis.com/v1b3/projects/{projectID}/locations/us-central1/jobs?alt=json

[2018-10-01 13:00:29,772] {logging_mixin.py:95} INFO - [2018-10-01 13:00:29,772] {gcp_dataflow_hook.py:77} INFO - Google Cloud DataFlow job not available yet..

[2018-10-01 13:00:44,790] {logging_mixin.py:95} INFO - [2018-10-01 13:00:44,790] {discovery.py:866} INFO - URL being requested: GET https://dataflow.googleapis.com/v1b3/projects/{projectID}/locations/us-central1/jobs?alt=json

[2018-10-01 13:00:44,937] {logging_mixin.py:95} INFO - [2018-10-01 13:00:44,937] {gcp_dataflow_hook.py:77} INFO - Google Cloud DataFlow job not available yet..

你知道这是什么原因吗？我找不到与此问题相关的任何解决方案。我应该提供更多信息吗？

这是我在DAG中的任务：

# dataflow task
dataflow_t=DataFlowJavaOperator(
task_id='mydataflow',
jar='/lib/dataflow_test.jar',
gcp_conn_id='my_gcp_conn',
delegate_to='{service_account}@{projectID}.iam.gserviceaccount.com',
dag=dag)

和连接到default_argsDAG中数据流的选项：

'dataflow_default_options': {
     'project': '{projectID}',
     'stagingLocation': 'gs://my-project/staging'
    }

共有1个答案

陆沈浪

2023-03-14

我也面临同样的问题。我在DataflowPipelineOptions中创建了作业名称。空气流还会根据您提供的任务id创建作业名称。

So there is conflict and airflow is not able to find the actual job name which 
you created via DataflowPipelineOptions.

你应该从DataflowPipelineOptions中删除作业名，它就可以工作了。

类似资料：

启动时运行谷歌数据流作业

我们的Google Cloud数据流管道程序调用了一些动态链接到*的库。所以要运行它，我需要设置linux环境变量LD_LIBRARY_PATH。有一种方法可以做到这一点：https://groups.google.com/forum/#!主题/综合。java。程序员/LOu18 OWAVM，但我想知道是否有一种方法可以在执行管道之前使用一些运行shell脚本的作业来实现这一点？
谷歌云数据流：使用DirectPipelineRunner（本地作业）访问管道中的谷歌云发布/订阅？

我已经使用Google云数据流SDK编写了一个流式管道，但我想在本地测试我的管道。我的管道从Google Pub/Sub获取输入数据。是否可以使用DirectPipelineRunner（本地执行，而不是在Google云中）运行访问发布/订阅（pubsubIO）的作业？我在以普通用户帐户登录时遇到权限问题。我是项目的所有者，我正在尝试访问发布/子主题。
谷歌云数据流--从PubSub到Parquet

我正在尝试使用谷歌云数据流将谷歌PubSub消息写入谷歌云存储。PubSub消息采用json格式，我要执行的唯一操作是从json到parquet文件的转换。
worker_machine_type标签在带有 python 的谷歌云数据流中不起作用

我在Python中使用Apache Beam和Google Cloud Dataflow（2.3.0）。当将参数指定为例如或时，Dataflow运行作业，但始终为每个工作人员使用标准机器类型。有没有人知道我是否做错了什么？其他主题(这里和这里)表明这应该是可能的，所以这可能是一个版本问题。我用于指定PipelineOptions的代码(注意，所有其他选项都工作正常，因此它应该识别< code
云数据流中失败的作业：启用数据流API

我当前正尝试将Dataflow与pub/sub一起使用，但出现以下错误：工作流失败。原因:(6E74E8516C0638CA):刷新凭据时出现问题。请检查：1。已为项目启用Dataflow API。2.您的项目有一个机器人服务帐户:service-[project number]@dataflow-service-producer-prod.iam.gserviceAccount.com应该可以
谷歌云数据流实例的图像

当我运行Dataflow作业时，它会将我的小程序包（setup.py或requirements.txt）上传到Dataflow实例上运行。但是数据流实例上实际运行的是什么？我最近收到了一个stacktrace：但从理论上讲，如果我在做，这意味着我可能没有运行这个Python补丁？你能指出这些作业正在运行的docker图像吗，这样我就可以知道我使用的是哪一版本的Python，并确保我没有在这里找

谷歌云数据流作业尚不可用。。在气流中

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档