Моя команда и я играем с NodeJS (с jsdom / jQuery) и анализируем множество HTML-документов, хранящихся в CouchDB. NodeJS является однопоточным, поэтому наличие 8 ядер в сервировке на первых порах совсем не помогает, вот где мне было интересно, как лучше создать дочерние процессы (возможно, рабочие?) Для обработки отдельного файла, когда он извлекается из CouchDB?
Вот мой мыслительный процесс:
- Основной скрипт NodeJS циклически просматривает CouchDB, получая файлы HTML из документов каждые X минут
- Создать процесс для анализа (jsdom / jQuery) и сохранения результатов из каждого файла HTML
Мы вообще не запускаем веб-сервер для обработки всего этого (вся командная строка), поэтому я не уверен, как это обрабатывать, за исключением универсальной «настройки CRON, чтобы просто запускать каждое задание синтаксического анализа». Кажется, что рабочие обычно используются для обработки запросов, поступающих с веб-сервера.
Мысли