当前位置: 首页 > 知识库问答 >
问题:

Google Dataflow作业和BigQuery在不同地区失败

翟冯浩
2023-03-14
BigQuery job ... finished with error(s): errorResult: 
Cannot read and write in different locations: source: EU, destination: US, error: Cannot read and write in different locations: source: EU, destination: US
Pipeline p = Pipeline.create(options);
p.apply(BigQueryIO.Read.fromQuery(query));

我正在读取的BigQuery表的详细信息如下:数据位置EU

当我在本地运行该作业时,我得到:

SEVERE: Error opening BigQuery table  dataflow_temporary_table_339775 of dataset _dataflow_temporary_dataset_744662  : 404 Not Found

我不明白,如果我只是在读取数据,为什么它要尝试写到不同的位置。即使它需要创建一个临时表,为什么要在不同的区域创建它?

有什么想法吗?

共有1个答案

燕凯旋
2023-03-14
    null
 类似资料:
  • null 通常,代码做它应该做的事情。但是,当从API收集一个大数据集(大约500.000个JSON文件)时,bigquery插入作业在使用DataFlow Runner时(它与在我的计算机上执行的DirectRunner一起工作)启动后立即停止(=在一秒钟内),而没有特定的错误消息。当使用较小的数据集时,一切都很好。 数据流日志如下: 按照建议使用bq cli工具来获取有关bq加载作业的更多信息

  • 我有两个不同的工作(实际上更多,但为了简单起见,假设2)。每个作业可以与另一个作业并行运行,但同一作业的每个实例应该顺序运行(否则实例将共享彼此的资源)。 基本上,我希望这些作业中的每一个都有自己的作业实例队列。我想我可以使用两个不同的线程池作业启动程序(每个都有一个线程),并将一个作业启动程序与每个作业相关联。 在从Spring Batch Admin web UI中启动作业时,是否有一种方法可

  • 我试图通过设置服务器身份验证将本地文件加载到bigquery。我已经完成了以下步骤 > gcloud auth激活服务帐户命令 使用登录 gcloud身份验证登录 正在尝试执行python脚本以将文件上载到BigQuery 范围= 结果是 但我有足够的权限创建查询作业 我错过了什么?我以为我已经登录了。

  • 我们正在BigQuery表上进行流式插入。 我们希望在不更改表名的情况下更新表的模式。 例如,我们希望删除一列,因为它包含敏感数据,但是我们希望保持所有其他数据和表名不变。 我们的流程如下: 将原始表复制到临时表 删除原始表 使用原始表名和新架构创建新表。 用旧表的数据填充新表。 哭,因为最后(最多)90分钟的数据卡在流缓冲区中,未传输 如何避免最后一步?

  • 我在BigQuery:count distinct concat(col1,col2,col3,col4,col5)中尝试了PostgreSQL:count distinct(col1,col2,col3,col4,col5) 我的设想是,我需要在BigQuery中获得与PostgreSQL相同的结果 虽然这个场景适用于3列,但我并没有得到与5列PostgreSQL相同的值。 示例查询: 当我删除

  • 我想在阿兹卡班经营蜂巢工作