Узел fs.readdir зависает в папках со слишком большим количеством файлов - PullRequest
0 голосов
/ 02 ноября 2018

В Node.js Мне нужно прочитать файлы в папке, и для каждого файла получить информацию об обработчике файла, это моя самая простая реализация, использующая fs.readdir:

FileServer.prototype.listLocal = function (params) {
            var self = this;
            var options = {
                limit: 100,
                desc: 1
            };
            // override defaults
            for (var attrname in params) { options[attrname] = params[attrname]; }

            // media path is the media folder
            var mediaDir = path.join(self._options.mediaDir, path.sep);
            return new Promise((resolve, reject) => {
                fs.readdir(mediaDir, (error, results) => {
                    if (error) {
                        self.logger.error("FileServer.list error:%s", error);
                        return reject(error);
                    } else { // list files
                        // cut to max files
                        results = results.slice(0, options.limit);
                        // filter default ext
                        results = results.filter(item => {
                            return (item.indexOf('.mp3') > -1);
                        });
                        // format meta data
                        results = results.map(file => {
                            var filePath = path.join(self._options.mediaDir, path.sep, file);
                            var item = {
                                name: file,
                                path: filePath
                            };
                            const fd = fs.openSync(filePath, 'r');
                            var fstat = fs.fstatSync(fd);
                            // file size in bytes
                            item.size = fstat.size;
                            item.sizehr = self.formatSizeUnits(fstat.size);
                            // "Birth Time" Time of file creation. Set once when the file is created. 
                            item.birthtime = fstat.birthtime;
                            // "Modified Time" Time when file data last modified.
                            item.mtime = fstat.mtime;
                            // "Access Time" Time when file data last accessed.
                            item.atime = fstat.atime;
                            item.timestamp = new Date(item.mtime).getTime();
                            item.media_id = path.basename(filePath, '.mp3');

                            fs.closeSync(fd);//close file
                            return item;
                        });
                        if (options.desc) { // sort by most recent
                            results.sort(function (a, b) {
                                return b.timestamp - a.timestamp;
                            });
                        } else { // sort by older
                            results.sort(function (a, b) {
                                return a.timestamp - b.timestamp;
                            });
                        }
                        return resolve(results);
                    }
                })
            });
        }

так что для каждого файла я получаю массив элементов

{
  "name": "sample121.mp3",
  "path": "/data/sample121.mp3",
  "size": 5751405,
  "sizehr": "5.4850 MB",
  "birthtime": "2018-10-08T15:26:08.397Z",
  "mtime": "2018-10-08T15:26:11.650Z",
  "atime": "2018-10-10T09:01:48.534Z",
  "timestamp": 1539012371650,
  "media_id": "sample121"
}

Тем не менее, проблема в том, что node.js fs.readdir может заморозить цикл ввода-вывода Node, когда в папке для списка содержится большое количество файлов, скажем, от десяти тысяч до сотен тысяч и более. Это известная проблема - см. здесь для получения дополнительной информации. Есть также планы улучшить fs.readdir в некотором роде, например, для потоковой передачи - см. здесь об этом.

Тем временем я ищу как патч к этому, потому что мои папки довольно большие. Поскольку проблема заключается в заморозке цикла событий, кто-то предложил решение, используя process.nextTick, которое я здесь описал

FileServer.prototype.listLocalNextTick = function (params) {
            var self = this;
            var options = {
                limit: 100,
                desc: 1
            };
            // override defaults
            for (var attrname in params) { options[attrname] = params[attrname]; }

            // media path is the media folder
            var mediaDir = path.join(self._options.mediaDir, path.sep);
            return new Promise((resolve, reject) => {
                var AsyncArrayProcessor = function (inArray, inEntryProcessingFunction) {
                    var elemNum = 0;
                    var arrLen = inArray.length;
                    var ArrayIterator = function () {
                        inEntryProcessingFunction(inArray[elemNum]);
                        elemNum++;
                        if (elemNum < arrLen) process.nextTick(ArrayIterator);
                    }
                    if (elemNum < arrLen) process.nextTick(ArrayIterator);
                }
                fs.readdir(mediaDir, function (error, results) {
                    if (error) {
                        self.logger.error("FileServer.list error:%s", error);
                        return reject(error);
                    }
                    // cut to max files
                    results = results.slice(0, options.limit);
                    // filter default ext
                    results = results.filter(item => {
                        return (item.indexOf('.mp3') > -1);
                    });
                    var ProcessDirectoryEntry = function (file) {
                        // This may be as complex as you may fit in a single event loop
                        var filePath = path.join(self._options.mediaDir, path.sep, file);
                        var item = {
                            name: file,
                            path: filePath
                        };
                        const fd = fs.openSync(filePath, 'r');
                        var fstat = fs.fstatSync(fd);
                        // file size in bytes
                        item.size = fstat.size;
                        item.sizehr = self.formatSizeUnits(fstat.size);
                        // "Birth Time" Time of file creation. Set once when the file is created. 
                        item.birthtime = fstat.birthtime;
                        // "Modified Time" Time when file data last modified.
                        item.mtime = fstat.mtime;
                        // "Access Time" Time when file data last accessed.
                        item.atime = fstat.atime;
                        item.timestamp = new Date(item.mtime).getTime();
                        item.media_id = path.basename(filePath, '.mp3');
                        // map to file item
                        file = item;
                    }//ProcessDirectoryEntry
                    // LP: fs.readdir() callback is finished, event loop continues...
                    AsyncArrayProcessor(results, ProcessDirectoryEntry);
                    if (options.desc) { // sort by most recent
                        results.sort(function (a, b) {
                            return b.timestamp - a.timestamp;
                        });
                    } else { // sort by older
                        results.sort(function (a, b) {
                            return a.timestamp - b.timestamp;
                        });
                    }
                    return resolve(results);
                });
            });
        }//listLocalNextTick

Это, похоже, позволяет избежать исходной проблемы, но я больше не могу сопоставить списки файлов с элементами с обработчиком файлов, которые я делал ранее, потому что при запуске AsyncArrayProcessor в списке файлов, таким образом, ProcessDirectoryEntry в каждой записи файла асинхронная природа process.nextTick приводит к тому, что я не могу вернуть массив results, модифицированный, как в предыдущей функции listLocal, где я только что сделал итеративный array.map массива results. Как пропатчить listLocalNextTick, чтобы он вел себя как listLocal, но сохраняя подход process.nextTick?

[UPDATE]

Согласно предложенному решению, это лучшая реализация на данный момент:

       /**
         * Scan files in directory
         * @param {String} needle 
         * @param {object} options 
         * @returns {nodeStream}
         */
        scanDirStream : function(needle,params) {
            var options = {
                type: 'f',
                name: '*'
            };
            for (var attrname in params) { options[attrname] = params[attrname]; }
            return new Promise((resolve, reject) => {
                var opt=[needle];
                for (var k in options) {
                    var v = options[k];
                    if (!Util.empty(v)) {
                        opt.push('-' + k);
                        opt.push(v);
                    }
                };
                var data='';
                var listing = spawn('find',opt)
                listing.stdout.on('data', _data => {
                    var buff=Buffer.from(_data, 'utf-8').toString();
                    if(buff!='') data+=buff;
                })
                listing.stderr.on('data', error => {
                    return reject(Buffer.from(error, 'utf-8').toString());
                });
                listing.on('close', (code) => {
                    var res = data.split('\n');
                    return resolve(res);
                });
            });

Пример использования:

scanDirStream(mediaRoot,{
        name: '*.mp3'
    })
    .then(results => {
        console.info("files:%d", results);
    })
    .catch(error => {
        console.error("error %s", error);
    });

Это может быть в конечном итоге изменено, чтобы добавить обратный вызов галочки при каждом событии stdout.on, генерируемом при получении нового файла в каталоге прослушивания.

1 Ответ

0 голосов
/ 22 января 2019

Я создал оболочку для find для него, но вы можете использовать dir или ls таким же образом.

const { spawn } = require('child_process');

/**
 * findNodeStream
 * @param {String} dir 
 * @returns {nodeStream}
 */
const findNodeStream = (dir,options) => spawn('find',[dir,options].flat().filter(x=>x));

/**
 * Usage Example:
  let listing = findNodeStream('dir',[options])
  listing.stdout.on('data', d=>console.log(d.toString()))
  listing.stderr.on('data', d=>console.log(d.toString()))
  listing.on('close', (code) => {
    console.log(`child process exited with code ${code}`);
  });
*/

это позволяет вам передавать каталог по частям, а не в целом, как это делает fs.readdir.

...