问题：

Kafka使用者解压缩gz文件流并读取

沃侯林

2023-03-14

Kafka producer正在发送.gz文件，但无法在消费者端解压缩和读取文件。获取错误为“IOError：不是gzipped文件”

producer-bin/kafka-console-producer.sh--broker-list localhost:9092-topic Airport<~/downloads/stocks.json.gz

消费者-

import sys 
import gzip
import StringIO
from kafka import KafkaConsumer

consumer = KafkaConsumer(KAFKA_TOPIC, bootstrap_servers=KAFKA_BROKERS)

try:
    for message in consumer:
        f = StringIO.StringIO(message.value)
        gzip_f = gzip.GzipFile(fileobj=f)
        unzipped_content = gzip_f.read()
        content = unzipped_content.decode('utf8')
        print (content)
except KeyboardInterrupt:
    sys.exit()

使用者出错-

Traceback (most recent call last):
  File "consumer.py", line 18, in <module>
    unzipped_content = gzip_f.read()
  File "/usr/lib64/python2.6/gzip.py", line 212, in read
    self._read(readsize)
  File "/usr/lib64/python2.6/gzip.py", line 255, in _read
    self._read_gzip_header()
  File "/usr/lib64/python2.6/gzip.py", line 156, in _read_gzip_header
    raise IOError, 'Not a gzipped file'
IOError: Not a gzipped file

共有1个答案

华星剑

2023-03-14

Kafaka并不是用来发送巨大的有效载荷/信息的。您应该将其视为分布式消息总线，它赋予您分布式系统的所有特权。

Kafaka限制可以跨行发送的信息的大小，原因如下

巨大的消息会增加代理中的内存压力。
较大的消息会降低代理的速度，并且处理这些消息的成本非常高。

null

使用批处理大小：

batch.size以总字节数而不是消息数度量批处理大小。它控制在向Kafka代理发送消息之前要收集多少字节的数据。在不超过可用内存的情况下，将其设置得尽可能高。默认值为16384。

如果增加缓冲区的大小，它可能永远不会满。生产者最终会根据其他触发器发送信息，例如以毫秒为单位的延迟时间。虽然可以通过设置太高的缓冲区批处理大小来降低内存使用，但这不会影响延迟。

如果您的生产者一直在发送，那么您可能会获得尽可能好的吞吐量。如果生产者经常空闲，您可能没有写入足够的数据来保证当前的资源分配。

因为您的数据是gzip，所以您可以使用referenceBasedMessaging。

而不是玩提取大小和消息最大字节大小（不能覆盖所有文件大小），将您的文件存储在分布式文件系统（如NFS/HDFS/S3)上，并将引用发送给用户。用户可以选择位置并解压数据。

类似资料：

使用python解压缩.gz文件的一部分

问题内容：这就是问题所在。我有sample.gz文件，大小约为60KB。我想解压缩该文件的前2000个字节。我遇到了CRC检查失败的错误，我猜是因为gzip CRC字段出现在文件末尾，并且它需要整个gzip压缩文件进行解压缩。有办法解决这个问题吗？我不在乎CRC检查。即使由于CRC错误而无法解压缩，也可以。有没有办法解决这个问题并解压缩部分.gz文件？我到目前为止的代码是遇到的错误是还可以
blob - jszip如何解压压缩包并读取docx文件？

我想使用jszip加载一个压缩包，获取里面的docx文件，返回一个文件地址或者xml，给wps加载项用，本来是想试一试blob是否可以，但是打出来的日志返回的是一个Blob {size: 10372, type: ''}，async里面的type写为string的时候，打出来的日志是个乱码想知道一下这个该怎么办，wps加载项需要是一个docx地址，或者是一个xml文件
解压缩多个*.gz文件，并在spark scala中生成一个csv文件
解压缩下载的。由于UnicodeDecodeError，gz文件失败

尝试下载. gz文件，将其解压缩到内存中，然后逐行读取解压缩后的内容。现在，标题如下所示： {'Date'：'Fri，23 Aug2019 07:19:28GMT'，'Server'：'Apache'，'X-Content-Type-Options'：'nosnff'，'X-Frame-Options'：'samesource'，'Referre-Policy'：'no-引用者'，'X-Xss-
使用NIO（解压缩）文件

问题内容：在许多在线示例中，使用编码缓冲区在Java中对文件进行（解压缩）。但是，使用NIO时，无需选择合适的缓冲区大小。我找到了文件和套接字的示例，但是是否有NIO通道用于压缩输入（例如），因此您可以使用它代替自己创建缓冲区吗？问题答案：不，专业的ZIP频道尚不存在…我想您可以执行以下操作。使用NIO读取要缓冲的任何通道。然后检索刚刚从缓冲区读取的字节到字节数组，使用ByteArrayIn
Julia：解压缩压缩文件中的压缩文件

我正在使用Julia的ZipFile包来提取和处理csv文件。没问题，但是当我遇到zip文件中的zip文件时，我也想处理它，但是遇到了一个错误。 Julia ZipFile文档如下：https://zipfilejl.readthedocs.io/en/latest/ 对如何做到这一点有什么想法吗？

Kafka使用者解压缩gz文件流并读取

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档