我有一个场景,我需要向Kafka主题发送大量数据(超过一百万条记录)。从数据库中获取数据并遍历每条记录,同时将每条记录发布到Kafka主题中。目前,我已经添加了Kafka事务性,并实现了原子性(发布所有内容或不发布任何内容)。但当我尝试在同一个事务中发布超过35k条记录时,出现网关超时异常。
在《SpringKafka》中,有没有更好的方法来处理这种情况?
您可以调整配置,以便能够在单个事务中发送更多记录,或者通过调整批处理来提高性能。大小或交易。超时。
但根据我的经验,尝试一个接一个或全部同时进行的方法通常不是一个好主意——前者往往效率低下,而后者可能会随着数据规模的增长而达到某种极限。
因此,除非您真的需要以原子方式发送100万消息,否则我会在您的情况下尝试批量交付记录-也许30K记录是一个很好的批量大小,并且只需提交每个批次。因此,您从数据库中获取30K记录,发送记录,提交,然后重复,直到发送所有记录。
这可能更具性能,也更具可扩展性,因为您可以通过这种方式发送的记录数量没有限制。
我正在使用Python语言。我有csv文件,我需要转换成json并发送到kafka,然后发送到ElasticSearch。 我能够将Csv转换为Json并发送给Kafka消费者。如何从Kafka Consumer向ElasticSearch获取数据
问题内容: 我有这个小点击计数器。我想将每次单击都包含在mysql表中。有人可以帮忙吗? 万一有人想看看我做了什么: 这是phpfile.php,出于测试目的,将数据写入txt文件 问题答案: 您的问题中定义的JavaScript不能直接与MySql一起使用。这是因为它不在同一台计算机上运行。 JavaScript在客户端(在浏览器中)运行,并且数据库通常在服务器端存在。您可能需要使用中间服务器端
本文向大家介绍Java将CSV的数据发送到kafka的示例,包括了Java将CSV的数据发送到kafka的示例的使用技巧和注意事项,需要的朋友参考一下 为什么将CSV的数据发到kafka flink做流式计算时,选用kafka消息作为数据源是常用手段,因此在学习和开发flink过程中,也会将数据集文件中的记录发送到kafka,来模拟不间断数据; 整个流程如下: 您可能会觉得这样做多此一举:flin
更新后出错 连接独立属性文件 连接帖子属性文件 上面的错误是当我通过apache kafka./bin/connect-standalone.shconfig/connect-standalone.propertiesconfig.postgresql.properties时引起的。 然后,我尝试并实现了本链接中提到的流程: https://hellokoding.com/kafka-connec
我试图使用pyspark将每日批次的数据发送到Kafka主题,但我当前收到以下错误: Traceback(最近的最后一次调用): File", line 5, in File"/usr/local/rms/lib/hdp26_c5000/park2/python/pyspark/sql/readwriter.py", line 548, in保存自己。_jwrite.save()File"/usr
本文向大家介绍python hbase读取数据发送kafka的方法,包括了python hbase读取数据发送kafka的方法的使用技巧和注意事项,需要的朋友参考一下 本例子实现从hbase获取数据,并发送kafka。 使用 以上这篇python hbase读取数据发送kafka的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持呐喊教程。