当前位置: 首页 > 知识库问答 >
问题:

Beam数据流流水线表创建接收器作为GCS中的Bigquery

冯元徽
2023-03-14

我想创建beam dataflow作业从GCS加载数据到Bigquery,我将有100s文件从不同文件夹在GCS的Parquet格式,是否可能从GCS的不同文件夹加载文件,是否可能在beam代码本身创建源数据集和表。

我的最终目标是创建管道,将数据从GCS加载到Bigquery,这要提前感谢。

共有1个答案

查宜民
2023-03-14

是的,这是一个完美的数据流。您可以使用fileio读取GCS,使用bigqueryio写入BigQuery。

 类似资料:
  • 我正在处理一个更大的数据流管道,它在批处理模式下工作得很好,但完成后的重构确实有侧输入的问题。如果我将管道置于流模式并移除侧输入,管道在Google的数据流上可以完美地工作。 如果把所有东西都剥离下来,构建以下简短的脚本来封装这个问题,并能够与它一起玩。 在Google的Dataflow中以批处理作业的形式运行这个脚本可以完成它需要做的事情。请参阅从数据流中可视化的管道:

  • 我在Dataflow(Apache beam)上创建了一个管道,以便在Google BigQuery上读写数据,但是我在创建DAG时遇到了问题,就像我在Airflow上做的那样。 这是我的代码中的一个示例: 我希望按顺序执行这些任务,而Dataflow是并行执行的 我如何让它们按顺序执行?

  • 我有一个Apache Beam管道,它在读取BigQuery后试图写入Postgres。代码使用JdbcIO连接器和数据流运行器。我使用的是Python 3.8.7和Apache Beam 2.28.0 我使用的是默认扩展服务。我也尝试运行一个自定义扩展服务,但仍然得到相同的错误。你知道吗? 我得到以下错误

  • 我试图从一个数据流作业中运行两个分离的管道,类似于下面的问题: 一个数据流作业中的并行管道 如果我们使用单个p.run()使用单个数据流作业运行两个分离的管道,如下所示: 我认为它将在一个数据流作业中启动两个独立的管道,但它会创建两个包吗?它会在两个不同的工人上运行吗?

  • 问题内容: 我是管道功能概念的新手。我有一些关于 从数据库的角度来看: 管道功能到底是什么? 使用管道功能的好处是什么? 使用管道功能解决了哪些挑战? 使用管道功能有什么优化优势? 谢谢。 问题答案: 引用“问汤姆·甲骨文”: 流水线函数只是“您可以假装为数据库表的代码” 流水线函数使您(让我惊讶) 在您认为可以使用它的任何时候-从函数而不是表中选择*可能是“有用的”。 就优点而言:使用Pipel

  • 如何使用带有DataflowRunner的apache光束从Google BigQuery数据集获取表列表? 我找不到如何从指定的数据集中获取表。我想使用数据流的并行处理编程模型将表从位于美国的数据集迁移到位于欧盟的数据集。