当前位置: 首页 > 知识库问答 >
问题:

Beam到BigQuery静默创建BigQuery表失败

闻人思聪
2023-03-14

我正在构建一个从PubSub到Beam(Direct/Dataflow Runner)再到Big Query的数据管道。今天,我们开始遇到 beam IO BigQuery 连接器停止自动创建表并且未生成错误消息(日志记录级别设置为 DEBUG)的问题。

下面是BigQuery PTransform的一个片段:

beam.io.WriteToBigQuery(
                table=bq_table,
                schema=to_bq_schema(table),
                write_disposition=beam.io.BigQueryDisposition.WRITE_APPEND,
                create_disposition=beam.io.BigQueryDisposition.CREATE_IF_NEEDED)

请注意,bq_table和模式应该是正确的。我们甚至尝试过将模式减少到单个列。

共有1个答案

颜高朗
2023-03-14

我能够解决问题。原来我的时间戳有 00000 时区意识。调试它非常困难,因为它静默失败,并且在运行器上附加调试器并非易事。

 类似资料:
  • 如何使用带有DataflowRunner的apache光束从Google BigQuery数据集获取表列表? 我找不到如何从指定的数据集中获取表。我想使用数据流的并行处理编程模型将表从位于美国的数据集迁移到位于欧盟的数据集。

  • 我正在尝试建立一个Apache Beam管道,该管道使用Apache Beam读取Kafka并写入BigQuery。我使用这里的逻辑筛选出一些坐标:https://www.talend.com/blog/2018/08/07/development-data-processing-job-using-apache-beam-streaming-pipeline/TLDR:主题中的消息的格式为id,

  • 我正试图通过python脚本在Google BigQuery上运行一个简单的查询,但得到以下错误,即我的服务帐户缺少权限。 我的服务帐户应用了以下角色: 所有者 我还尝试用创建自定义角色,并将其应用于服务号,但仍然会出现此错误。我做错了什么? 拒绝访问:Project my test Project:用户my service account@my test Project。国际机械师协会。gser

  • 我的用例很简单:从pub/sub订阅中读取事件日志,解析它们并保存到BigQuery中。由于预计事件的数量将显著增加,而且我使用的是无界数据源,所以我决定在BigQuery中配置sharding:根据事件数据的时间戳(在Beam文档中称为“事件时间”)将事件存储到每日表中。我的问题是,我是否需要在我的情况下配置窗口,或者我可以只保留默认配置,隐式地使用全局窗口?我之所以问这个问题,是因为我发现的大

  • 我想创建beam dataflow作业从GCS加载数据到Bigquery,我将有100s文件从不同文件夹在GCS的Parquet格式,是否可能从GCS的不同文件夹加载文件,是否可能在beam代码本身创建源数据集和表。 我的最终目标是创建管道,将数据从GCS加载到Bigquery,这要提前感谢。

  • 我使用python sdk创建一个新的bigquery表: 变量包含创建的表信息,其中包含-因此,我假设表创建正确。 之后,当我调用<code>bigquery_service.tables().list(…)时,我甚至得到了表。 问题是:当在那之后插入时,我仍然(经常)得到一个错误: 我的插入函数调用如下所示: 我甚至多次重试插入,两次重试之间睡眠时间为3秒。有什么想法吗? 我的项目Id是< c

  • BigQuery 是 Google推出的一项Web服务,该服务让开发者可以使用Google的架构来运行SQL语句对超级大的数据库进行操作。BigQuery允许用户上传 他们的超大量数据并通过其直接进行交互式分析,从而不必投资建立自己的数据中心。在周一于加利福尼亚举行的Google Atmosphere会议上,Google透露了BigQuery引擎可以快速扫描高达70TB未经压缩处理的数据,并且可马

  • 我正在为Apache Beam使用Python SDK。datatable和架构的值在pCollection中。这是我从PubSub上读到的消息: 然后,我想使用json消息中的值将其写入BigQuery,其中lambda函数用于datatable,此函数用于模式: 当我执行它时,会出现以下错误: 如何将PCollection的值用作pTransform中的变量?