问题：

GCP数据流Apache波束写入输出错误处理

段干华晖

2023-03-14

spannerBranchTuples2.get(spannerOutput2)
    .apply("Create Spanner Mutation", ParDo.of(createSpannerMutation))                      
    .apply("Write Spanner Records", SpannerIO.write()
        .withInstanceId(options.getSpannerInstanceId())                  
        .withDatabaseId(options.getSpannerDatabaseId())
        .grouped());

我没有找到任何文档允许将错误处理应用于此步骤，也没有找到将其重写为DOFN的方法。对此应用错误处理有什么建议吗？谢谢

共有1个答案

郑宏朗

2023-03-14

在Dataflow文档中有一个有趣的模式。

基本上，这个想法是在将结果发送到编写转换之前有一个dofn。它看起来是这样的：

final TupleTag<Output> successTag = new TupleTag<>() {};
final TupleTag<Input> deadLetterTag = new TupleTag<>() {};
PCollection<Input> input = /* … */;
PCollectionTuple outputTuple = input.apply(ParDo.of(new DoFn<Input, Output>() {
  @Override
  void processElement(ProcessContext c) {
  try {
    c.output(process(c.element());
  } catch (Exception e) {
    LOG.severe("Failed to process input {} -- adding to dead letter file",
      c.element(), e);
    c.sideOutput(deadLetterTag, c.element());
  }
}).withOutputTags(successTag, TupleTagList.of(deadLetterTag)));

outputTuple.get(deadLetterTag)
  .apply(/* Write to a file or table or anything */);

outputTuple.get(successTag)
  .apply(/* Write to Spanner or any other sink */);

让我知道如果这是有用的！

类似资料：

GCP数据流+Apache波束缓存问题

我对GCP、Dataflow、Apache Beam、Python和一般的OOP都是新手。我来自函数式javascript领域，对于上下文。现在，我已经用Apache Beam python sdk构建了一个流管道，并将其部署到GCP的数据流中。管道的源是pubsub订阅，接收器是数据存储。管道从pubsub订阅中获取消息，根据配置对象+消息内容做出决定，然后根据做出的决定将其放在数据存储中的
控制数据流/Apache波束输出分片

我们在实验中发现，在DataFlow/Apache Beam管道中设置显式的输出碎片#会导致更差的性能。我们的证据表明，Dataflow在最后秘密地做了另一个GroupBy。我们已经转向让Dataflow自动选择碎片数(shards=0)。但是，对于某些管道，这会导致大量相对较小的输出文件(~15K文件，每个<1MB)。
数据流大侧输入中的Apache波束

这与这个问题最为相似。我正在Dataflow 2.x中创建一个管道，它从Pubsub队列获取流式输入。进入的每一条消息都需要通过来自Google BigQuery的一个非常大的数据集进行流式传输，并且在写入数据库之前附加了所有相关的值（基于一个键）。问题是来自BigQuery的映射数据集非常大--任何将其用作侧输入的尝试都失败了，数据流运行程序会抛出错误“java.lang.IllegalAr
Apache波束在数据流上的部署

嗨，我已经创建了一个apache beam管道，测试了它，并在eclipse内部运行了它，包括本地和使用dataflow Runner。我可以在eclipse控制台中看到管道正在运行。e.控制台上的日志。这是我在cmd提示符中使用的maven命令，这是我用来创建管道和设置选项的代码段。
波束/数据流警告

我们有一个波束/数据流管道(使用数据流SDK 2.0.0-beta3 但是，我们正在设置参数，我们可以看到所有二进制文件/jar 等都已上传到我们在参数中指定的存储桶。但是，Beam/Dataflow 随后会在我们项目的 GCS 中创建以下僵尸存储桶：为什么会发生这种情况，如果我们清楚地设置参数？
处理flink数据流的输出数据

下面是我的流处理的伪代码。上面的代码流程正在创建多个文件，我猜每个文件都有不同窗口的记录。例如，每个文件中的记录都有时间戳，范围在30-40秒之间，而窗口时间只有10秒。我预期的输出模式是将每个窗口数据写入单独的文件。对此的任何引用或输入都会有很大帮助。

GCP数据流Apache波束写入输出错误处理

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档