当前位置: 首页 > 面试题库 >

将流缓冲区转换为utf8字符串

叶书
2023-03-14
问题内容

我想使用node.js进行HTTP请求以从Web服务器加载一些文本。由于响应可能包含很多文本(有些兆字节),因此我想分别处理每个文本块。我可以使用以下代码来实现:

var req = http.request(reqOptions, function(res) {
    ...
    res.setEncoding('utf8');
    res.on('data', function(textChunk) {
        // process utf8 text chunk
    });
});

这似乎没有问题。但是我想支持HTTP压缩,所以我使用zlib:

var zip = zlib.createUnzip();

// NO res.setEncoding('utf8') here since we need the raw bytes for zlib
res.on('data', function(chunk) {
    // do something like checking the number of bytes downloaded
    zip.write(chunk); // give the raw bytes to zlib, s.b.
});

zip.on('data', function(chunk) {
    // convert chunk to utf8 text:
    var textChunk = chunk.toString('utf8');

    // process utf8 text chunk
});

这可以是像多字节字符的问题'\u00c4',其由两个字节组成:0xC30x84。如果第一个字节被第一个块(Buffer)覆盖,第二个字节被第二个块覆盖,则将chunk.toString('utf8')在文本块的结尾/开头产生不正确的字符。如何避免这种情况?

提示:我仍然需要缓冲区(更具体地说是缓冲区中的字节数)来限制下载的字节数。因此res.setEncoding('utf8'),在上面的第一个示例代码中使用like来处理非压缩数据不符合我的需求。


问题答案:

单缓冲器

如果只有一个Buffer,则可以使用其toString方法,该方法将使用特定的编码将全部或部分二进制内容转换为字符串utf8如果您不提供参数,则默认为默认值,但在此示例中,我已明确设置了编码。

var req = http.request(reqOptions, function(res) {
    ...

    res.on('data', function(chunk) {
        var textChunk = chunk.toString('utf8');
        // process utf8 text chunk
    });
});

流式缓冲区

如果像上面的问题中那样流式传输了缓冲区,则多字节字符的第一个字节UTF8可能包含在第一个Buffer(块)中,第二个字节包含在第二个(块中),Buffer则应使用a
StringDecoder。:

var StringDecoder = require('string_decoder').StringDecoder;

var req = http.request(reqOptions, function(res) {
    ...
    var decoder = new StringDecoder('utf8');

    res.on('data', function(chunk) {
        var textChunk = decoder.write(chunk);
        // process utf8 text chunk
    });
});

这样, 不完整 字符的字节将由缓冲,StringDecoder直到将所有需要的字节写入解码器为止。



 类似资料:
  • 我有一个node.js readstream,它发出一个缓冲区,并使用toString()函数将缓冲区转换为字符串,之后,当我试图通过JSON.parse()函数将字符串转换为JSON时,它会抛出解析错误。 有没有最好的方法将缓冲区转换为字符串,然后将字符串转换为JSON? JSON字符串如下所示, [{“data1”:1487328824948,“encrypt”:false,“version”

  • 我有一个JSON对象,我正在将它转换成一个,并在这里进行一些处理。稍后,我想将相同的缓冲区数据转换为有效的JSON对象。 我的工作节点V6.9.1 下面是我尝试过的代码,但当我转换回JSON并且无法打开此对象时,我得到了。 所以我试着用检查的方式打印整个物体 如果我试着像数组一样读取它 我试图解析它也抛出SynTaxError:意外令牌o在JSON在位置2 我需要像我创建的那样将其视为真实对象(我

  • 在Python脚本中,,我使用协议缓冲区使用以下方法来建模数据: 在. proto文件中定义消息格式。 使用协议缓冲区编译器。 使用Python协议缓冲区API在. py模块中写入和读取消息。 我想在appengine上实现Cloud Endpoints框架,该框架导入,并使用前面提到的Python脚本,但是Cloud Endpoints使用ProtoRPC,而不是“标准”协议缓冲区。 我的App

  • 问题内容: 直到今天,我才意识到我的PHP脚本中缺少此功能: 我所有的表都是InnoDB,归类为“ utf8_unicode_ci”,我所有的VARCHAR列也均为“ utf8_unicode_ci”。我有我的PHP脚本,和我所有的PHP文件编码为UTF-8。 因此,直到现在,每次我用变音符号“插入”某些东西时,例如: 在这种情况下,“名称”内容为:。 由于我固定了PHP和MySQL之间的字符集,

  • 问题内容: 我能够从发送消息到上。如果我从发送消息,则使用任何可访问性(包括完整的语言本地化)都没有区别;英语也没有问题。正确的编码很重要,只有以下代码行: 不幸的是,这是无效的。我要从中获取消息的情况有所不同。 在我得到消息的情况下,从Windows操作系统(英语,没有任何语言包),我能够把消息来自于形式。 如果Windows操作系统使用某些语言包进行了完全本地化,则我将收到一个例外 消息缓冲区

  • 问题内容: 我想解组包含JSON的a,但是该函数将a 作为输入。 如何将UTF8转换为? 问题答案: 这个问题可能是如何将字符串分配给bytes数组的重复,但是仍然有答案,因为有更好的替代解决方案: 从转换到由该规范允许的,使用一个简单的转换: 字符串类型之间的转换 […] 将字符串类型的值转换为字节片的类型会产生一个片,其连续元素是字符串的字节。 因此,您可以简单地执行以下操作: 但是,该转换会