nodejs 对于编码格式为 gb2313的网页无法正确解析,有两个解决办法,欢迎补充。
1 使用 superagent-charset 插件
其实 superagent-charset插件也用到了iconv-lite
const superagent = require('superagent');
const charset = require('superagent-charset');
charset(superagent);
superagent.get(url).charset("gb2312").end(function (err, res) {
if (res) {
fs.writeFile('./a.txt', JSON.stringify(res), function (err) {
if (err) throw err;
console.log('写入成功');
});
}
})
2, 使用 axios 和 iconv-lite
使用axios请求,返回 stream 数据流,用node的Buffer接收并用iconv-lite解析gbk格式
const iconvLite = require('iconv-lite');
const axios = require('axios');
axios.get(url, { responseType: 'stream' }).then(function (params) {
let chunks = [];
params.data.on("data", function (chunk) {
chunks.push(chunk)
})
params.data.on("end", function () {
let buffer = Buffer.concat(chunks);
let str = iconvLite.decode(buffer, 'gbk')
fs.writeFile('./a.txt', str, function (err) {
if (err) throw err;
console.log('写入成功');
});
})
})