当前位置: 首页 > 知识库问答 >
问题:

Kafka connect sink连接器,具有多个单分区主题

严劲
2023-03-14

我们希望使用Kafka connect sink连接器将消息从Kafka复制到Mongo DB。在我们的用例中,我们有多个主题,每个主题都有一个分区(主题的名称可以用正则表达式表示,例如topic.XXX.name)。这些主题的数量在不断增加。我想知道Kafka connect架构是否适合这个用例。如果是这样,如何配置它的增益高可缩放性和并行性?任务是什么。最大值?工人数量?

共有1个答案

傅朗
2023-03-14

Kafka Connect是灵活的;答案是你需要多少就有多少。

每个连接工作线程的运行任务数通常仅受每个工作线程的 JVM 堆大小的限制。添加更多工作线程将允许您拥有更多的活动连接器总数。

然而,对于接收器连接器,您只能拥有与正在使用的主题分区总数相同的总任务数。

不过,有一件事需要担心,那就是随着话题的增加,消费者群体的重新平衡会频繁发生。因此,建议为任何关键数据创建独立的连接器

 类似资料:
  • 分布式模式下Kafka Connect集群的偏移管理行为是什么,即运行多个连接器并监听同一组主题(或一个主题)? 因此,在分布式模式下,Kafka Connect 会将偏移量信息存储在 Kafka 中,此偏移量将由集群中的工作线程读取和提交。如果我在该 Kafka Connect 集群中运行多个连接器侦听同一主题,会发生什么情况?分区的偏移量是否与所有连接器相同,或者每个连接器在分区上的偏移量是否

  • 我有一个带有2个分区的源主题,我正在用同一个应用程序启动2个kafka streams应用程序。id,但不同的接收器主题。 1) 这两个应用程序实例是否会从不同的分区接收数据? 2)如果其中一个应用程序被杀死,另一个实例会自动从两个实例中消耗吗? 3) 我如何证明上述情况?

  • 我们使用的是 Kafka 2.5.1 版本集群。最近注意到其中一个主题分区数据大小不均匀。与其余分区相比,一个特定分区的大小增加了 300%。这在群集中造成了不均衡的磁盘利用率。 已验证使用者滞后,看起来像其他分区一样正常 此外,我们使用默认分区程序和设置为默认值的“metadata.max.age.ms”配置,即 300000ms(5 分钟) 我们是如何使分区数据均匀分布的?

  • 我使用的是Kafka 0.8.2,而我的使用者却出现了一个错误:“OFFSET commit FAILL with...”。当查看主题“__consumer_offsets”时。我看到它有50个分区计数。正常吗?我只能通过删除所有的Kafka日志并重新启动我的Kafka服务器来解决这个问题。是否有一种方法,我可以删除这个主题时,它达到一定数量的分区,还是我提交的偏移量是错误的? 下面是我提交偏移的

  • 问题内容: 我使用Python Requests库下载一个大文件,例如: 大文件的下载速度为每秒+-30 Kb,这有点慢。与bigfile服务器的每个连接都受到限制,因此我想建立多个连接。 有没有一种方法可以同时建立多个连接来下载一个文件? 问题答案: 您可以使用HTTP标头仅获取文件的一部分(此处已涵盖python)。 只需启动几个线程,并获取每个线程的不同范围,就可以完成;) 还要注意,并非每

  • 问题内容: 是否可以在node.js中创建单个http服务器,该服务器将接受多个主机名上的连接?例如:我有多个绑定到IP地址的子域(x1.domain.com,x2.domain.com,… xn.domain.com),并且我希望node.js程序仅接受x1上的连接。 domain.com和x2.domain.com。 问题答案: 使用ConnectJS的“ vhost”中间件应该可以实现: h