当前位置: 首页 > 工具软件 > SuperAgent > 使用案例 >

nodejs 爬虫中文字体乱码 superagent iconvLite

武成和
2023-12-01

nodejs 对于编码格式为 gb2313的网页无法正确解析,有两个解决办法,欢迎补充。

1 使用 superagent-charset 插件
其实 superagent-charset插件也用到了iconv-lite

const superagent = require('superagent');
const charset = require('superagent-charset');

charset(superagent);

superagent.get(url).charset("gb2312").end(function (err, res) {
  if (res) {
    fs.writeFile('./a.txt', JSON.stringify(res), function (err) {
      if (err) throw err;
      console.log('写入成功');
    });
  }
})

2, 使用 axios 和 iconv-lite
使用axios请求,返回 stream 数据流,用node的Buffer接收并用iconv-lite解析gbk格式

const iconvLite = require('iconv-lite');
const axios = require('axios');

axios.get(url, { responseType: 'stream' }).then(function (params) {
  let chunks = [];

  params.data.on("data", function (chunk) {
    chunks.push(chunk)
  })

  params.data.on("end", function () {
    let buffer = Buffer.concat(chunks);
    let str = iconvLite.decode(buffer, 'gbk')
    fs.writeFile('./a.txt', str, function (err) {
      if (err) throw err;
      console.log('写入成功');
    });
  })
})
 类似资料: