NodeJS，Promise，流-处理大型CSV文件

史英飙

2023-03-14

问题内容：

我需要构建一个函数来处理大型CSV文件，以便在bluebird.map（）调用中使用。考虑到文件的潜在大小，我想使用流媒体。

此函数应接受一个流（一个CSV文件）和一个函数（处理该流中的块），并在读取文件到末尾（已解决）或错误（已拒绝）时返回promise。

所以，我开始：

'use strict';

var _ = require('lodash');
var promise = require('bluebird');
var csv = require('csv');
var stream = require('stream');

var pgp = require('pg-promise')({promiseLib: promise});

api.parsers.processCsvStream = function(passedStream, processor) {

  var parser = csv.parse(passedStream, {trim: true});
  passedStream.pipe(parser);

  // use readable or data event?
  parser.on('readable', function() {
    // call processor, which may be async
    // how do I throttle the amount of promises generated
  });

  var db = pgp(api.config.mailroom.fileMakerDbConfig);

  return new Promise(function(resolve, reject) {
    parser.on('end', resolve);
    parser.on('error', reject);
  });

}

现在，我有两个相互关联的问题：

我需要限制正在处理的实际数据量，以免造成内存压力。
作为processor参数传递的函数通常将是异步的，例如通过基于Promise的库将文件的内容保存到db中（现在：）pg-promise。这样，它将在内存中创建一个承诺并不断重复。

该pg-promise库具有管理此功能的功能，例如page（），但是我无法围绕如何将流事件处理程序与这些promise方法混合使用的问题。现在，我readable在each后面的部分的处理程序中返回一个promise
read()，这意味着我创建了大量承诺的数据库操作，最终由于遇到进程内存限制而出现故障。

有没有人有一个可行的例子可以作为我的切入点？

更新：可能有不止一种方式为猫皮，但这有效：

'use strict';

var _ = require('lodash');
var promise = require('bluebird');
var csv = require('csv');
var stream = require('stream');

var pgp = require('pg-promise')({promiseLib: promise});

api.parsers.processCsvStream = function(passedStream, processor) {

  // some checks trimmed out for example

  var db = pgp(api.config.mailroom.fileMakerDbConfig);
  var parser = csv.parse(passedStream, {trim: true});
  passedStream.pipe(parser);

  var readDataFromStream = function(index, data, delay) {
    var records = [];
    var record;
    do {
      record = parser.read();
      if(record != null)
        records.push(record);
    } while(record != null && (records.length < api.config.mailroom.fileParserConcurrency))
    parser.pause();

    if(records.length)
      return records;
  };

  var processData = function(index, data, delay) {
    console.log('processData(' + index + ') > data: ', data);
    parser.resume();
  };

  parser.on('readable', function() {
    db.task(function(tsk) {
      this.page(readDataFromStream, processData);
    });
  });

  return new Promise(function(resolve, reject) {
    parser.on('end', resolve);
    parser.on('error', reject);
  });
}

有人看到这种方法有潜在的问题吗？

问题答案：

在下面找到一个完整的应用程序，该应用程序可以正确执行所需的任务：它将文件读取为流，将其解析为CSV，并将每一行插入数据库。

const fs = require('fs');
const promise = require('bluebird');
const csv = require('csv-parse');
const pgp = require('pg-promise')({promiseLib: promise});

const cn = "postgres://postgres:password@localhost:5432/test_db";
const rs = fs.createReadStream('primes.csv');

const db = pgp(cn);

function receiver(_, data) {
    function source(index) {
        if (index < data.length) {
            // here we insert just the first column value that contains a prime number;
            return this.none('insert into primes values($1)', data[index][0]);
        }
    }

    return this.sequence(source);
}

db.task(t => {
    return pgp.spex.stream.read.call(t, rs.pipe(csv()), receiver);
})
    .then(data => {
        console.log('DATA:', data);
    }
    .catch(error => {
        console.log('ERROR:', error);
    });

请注意，我唯一改变的是：使用library csv-parse代替csv，作为更好的选择。

增加了使用方法stream.read从SPEX库，它正确地供应可读与承诺使用流。

NodeJS，Promise，流-处理大型CSV文件

相关阅读

相关文章

相关问答

相关工具

相关文档

NodeJS，Promise，流-​​处理大型CSV文件

相关阅读

相关文章

相关问答

相关工具

相关文档

NodeJS，Promise，流-处理大型CSV文件