Оптимизация Node.js скрипта с MongoDB при получении большого количества данных - PullRequest
1 голос
/ 27 января 2020

Итак, у меня есть этот сценарий, основная цель которого - перенести все вложения в корзину GridFS:

var MongoClient = require('mongodb').MongoClient;
var Grid = require('mongodb').GridFSBucket;
var fs = require('fs');
var path = require('path');
var process = require('process');

var collection = 'bond';
var dir = 'C:/Users/Fernando/Documents/MigratedData/' + collection + "/";
var filePath = '';
var fileName = '';


// Connect to the db
MongoClient.connect("mongodb://localhost:27017", { useUnifiedTopology: true }, (err, client) => {
  if(err) return console.dir(err);

  console.log("CONNECTED SUCESSFULLY");
  var db = client.db('GO2_Alpha');
  var bucket = new Grid(db, { bucketName: collection});

  console.log("Executing Query...");
  db.collection(collection).find({}).toArray((err, result) => {
    if (err) {
      console.log("Error: ", err);
      throw err;
    } else {
      console.log("Searching for all [", collection, "] orders...");
    }

    result.forEach(order => {
      if(order.attachments != []) {
        order.attachments.forEach((file, i) => {
          var cleanInternalCode = order.internalCode.replace(/\//g, '');
          fileName = cleanInternalCode + "#A" + i;
          filePath = path.join(dir + fileName);

          downloadFiles(file.raw);
          saveFiles(bucket);
          console.log("Attachment [", fileName, "] downloaded.");
        });
      }
    })
    console.log("Operation Ended");
  })
});

function downloadFiles(fileReceived) {
  fs.appendFile(filePath, fileReceived, function (err) {
    if (err) throw err;
  });
}

function saveFiles(targetBucket) {
  fs.createReadStream(filePath)
  .pipe(targetBucket.openUploadStream(fileName))
    .on('error', (err) => {
      console.log("Some error occured: ", err);
    })
    .on('finish', () => {
    });
}

Но получение всей необходимой информации занимает слишком много времени, как ее можно улучшить этот код? Мне нужно извлечь все вложения из mongoDB и затем использовать GridFS, чтобы сохранить их в контейнерах.

Иногда, когда я запускаю скрипт, выдает ошибку, говорящую, что: Error: EMFILE: too many open files

Когда я ищите ulimit -a в консоли, он получает это:

core file size          (blocks, -c) unlimited
data seg size           (kbytes, -d) unlimited
file size               (blocks, -f) unlimited
open files                      (-n) 254
pipe size            (512 bytes, -p) 8
stack size              (kbytes, -s) 2032
cpu time               (seconds, -t) unlimited
max user processes              (-u) 256
virtual memory          (kbytes, -v) unlimited

Поэтому я использовал следующую командную строку: ulimit -n 2048, чтобы изменить это ограничение, но оно все равно выдает ту же ошибку. Как я могу оптимизировать максимум, который могу, чтобы он занимал меньше времени и не создавал ошибок такого рода?

Заранее спасибо! С наилучшими пожеланиями.

...