问题：

如何通过使用Apache Beam IO流式传输来避免BigQuery中的重复？

郭星文

2023-03-14

我们使用了一个非常简单的流程，从PubSub检索消息，将其JSON内容扁平化为两种类型（对于BigQuery和Postgres），然后插入到两个接收器中。但是，我们在两个接收器中都看到了重复的情况（Postgres有点固定了，有一个唯一的约束和一个“关于冲突……什么都不做”）。

起初，我们信任Apache Beam/BigQuery创建的所谓“插入式”UUId。然后，在将消息排入PubSub之前，使用JSON本身的数据为每条消息添加一个“unique\u label”属性，这赋予了它们唯一性（设备id和读取的时间戳）。并使用该属性和“withIdAttribute”方法订阅主题。最后，我们支付了GCP支持费用，但他们的“解决方案”不起作用。他们告诉我们甚至要使用改组转换（顺便提一下，这一点已被弃用）和一些窗口化（我们不会这样做，因为我们需要接近实时的数据）。

这是主流程，非常基本：[使用最新代码更新]管道

        val options = PipelineOptionsFactory.fromArgs(*args).withValidation().`as`(OptionArgs::class.java)
        val pipeline = Pipeline.create(options)
        var mappings = ""

        // Value only available at runtime
        if (options.schemaFile.isAccessible){
            mappings = readCloudFile(options.schemaFile.get())
        }

        val tableRowMapper = ReadingToTableRowMapper(mappings)
        val postgresMapper = ReadingToPostgresMapper(mappings)

        val pubsubMessages =
            pipeline
            .apply("ReadPubSubMessages",
                PubsubIO
                    .readMessagesWithAttributes()
                    .withIdAttribute("id_label")
                    .fromTopic(options.pubSubInput))

        pubsubMessages
            .apply("AckPubSubMessages", ParDo.of(object: DoFn<PubsubMessage, String>() {
                @ProcessElement
                fun processElement(context: ProcessContext) {
                    LOG.info("Processing readings: " + context.element().attributeMap["id_label"])
                    context.output("")
                }
            }))

        val disarmedMessages =
            pubsubMessages
                .apply("DisarmedPubSubMessages",
                    DisarmPubsubMessage(tableRowMapper, postgresMapper)
                )

        disarmedMessages
            .get(TupleTags.readingErrorTag)
            .apply("LogDisarmedErrors", ParDo.of(object: DoFn<String, String>() {
                @ProcessElement
                fun processElement(context: ProcessContext) {
                    LOG.info(context.element())
                    context.output("")
                }
            }))

        disarmedMessages
            .get(TupleTags.tableRowTag)
            .apply("WriteToBigQuery",
                BigQueryIO
                    .writeTableRows()
                    .withoutValidation()
                    .withCreateDisposition(BigQueryIO.Write.CreateDisposition.CREATE_NEVER)
                    .withWriteDisposition(BigQueryIO.Write.WriteDisposition.WRITE_APPEND)
                    .withFailedInsertRetryPolicy(InsertRetryPolicy.neverRetry())
                    .to(options.bigQueryOutput)
            )

        pipeline.run()

DissarmPubsubMessage是一种PTransforms，它使用FlatMapElements转换来获取TableRow和ReadingInputFlatten（Postgres自己的类）

我们期望零重复或“尽最大努力”（并且我们附加了一些清理cron的工作），我们为这些产品支付了运行统计和bigdata分析的费用。。。

[UPDATE 1]我甚至附加了一个新的简单转换，该转换通过ParDo记录我们的唯一属性，据说应该响应PubsubMessage，但事实并非如此：

带有AckPubSubMessages步骤的新流程

谢谢！！

共有2个答案

越朗

2023-03-14

支持的编程语言是Python和Java，您的代码似乎是Scala，据我所知不支持。我强烈建议使用Java，以避免您使用的编程语言有任何不受支持的功能。

此外，我建议使用以下方法来处理副本，选项2可以满足您的近实时需求：

message\u id。您可能已经阅读了指向已弃用文档的常见问题解答-副本。但是，如果检查PubsubMessage对象，您会注意到messageId仍然可用，如果发布者未设置，则会填充它：

"此消息的ID，由服务器在消息发布时分配...发布者不能在topics.publish调用中填充它"

BigQuery流媒体。要在加载数据期间验证复制，请在插入BQ之前创建UUID。请参阅示例接收器一节：Google BigQuery。

尝试数据流模板PubSubToBigQuery并验证BQ中没有重复项。

濮金鑫

2023-03-14

看起来您正在使用全局窗口。一种技术是将此窗口设置为N分钟窗口。然后处理窗口中的键，并放置带有dup键的项目。

类似资料：

Java8流如何避免使用map或set过滤？[重复]

我不断遇到需要通过映射或集合保存状态的解决方案。e、 g.创建一个返回在输入中找到的重复项的方法我的Java8流解决方案，不幸的是，我正在使用哈希集进行过滤。我理解这并不“恰当”，因为这取决于州。没有州是建议还是硬性规定？这只是运行并行流时的问题吗？有人能推荐一种不使用哈希集的方法吗？
如何避免流中的结果重复？[重复]

钱箱类：商户类：输入数据：我的任务计算每个商家的总金额并返回商家列表我正在尝试使用Stream API解决这个任务。并编写了以下代码: 结果但显然，流返回四个对象，而不是所需的两个对象。我意识到，地图（第二行）为每个cashBoxId创建了四个对象。而且我不知道如何通过进行过滤，也不知道如何获得没有重复的结果。
通过HTML5中的RTSP或RTP流式传输

问题内容：我正在构建一个Web应用程序，该服务器应从服务器 http://lscube.org/projects/feng 播放RTSP / RTP流。 HTML5视频/音频标签是否支持rtsp或rtp？如果没有，最简单的解决方案是什么？也许是VLC插件之类的东西。问题答案：从技术上讲“是” （但不是真的） HTML 5的标签与协议无关-不在乎。您将协议作为URL的一部分放在属性中。例如：
如何流式传输单声道通过Spring网络流量？

Spring webflux Json流不适用于转换为Mono的Flux对象
如何使用存储过程避免重复记录[重复]

我想编写一个存储过程来将数据插入到表中，并检查是否已经存在相同的数据？如果是，则异常抛出为已经存在。但我不知道应该在哪里添加异常。请帮忙。
如何避免重复的ArrayList？

我使用for循环将学生详细信息添加到ArrayList。当我给第二个学生提供详细信息时，它会覆盖第一个数据。螺柱类将数据添加到ArrayList的主类。输出：第二个数据[2,2]后的实际输出辊数[1]。预期输出应为卷号： A1姓名： F1 L1性别：男性年龄： 11体育赛事：标枪报名号：A2姓名：F2 L2性别：女年龄：14体育项目：100米跑报名号：A3姓名：F3 L3性别：男性年龄：1

如何通过使用Apache Beam IO流式传输来避免BigQuery中的重复？

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档