Очередь HTTP-запросов NodeJS - PullRequest
0 голосов
/ 16 марта 2019

Я создал скребок, используя puppeteer & node js (express).Идея в том, что когда сервер получит http-запрос, мои приложения начнут очищать страницу.

Проблема в том, что мои приложения получают несколько запросов http одновременно.Процесс очистки будет начинаться снова и снова, пока не поступит запрос http.Как запустить только один http-запрос и поставить другой запрос в очередь до завершения первого процесса очистки?

В настоящее время я пробовал node-request-queue с кодами ниже, но без ошибок.

var express = require("express");
var app = express();
var reload = require("express-reload");
var bodyParser = require("body-parser");
const router = require("./routes");
const RequestQueue = require("node-request-queue");

app.use(bodyParser.urlencoded({ extended: true }));
app.use(bodyParser.json());

var port = process.env.PORT || 8080;

app.use(express.static("public")); // static assets eg css, images, js

let rq = new RequestQueue(1);

rq.on("resolved", res => {})
  .on("rejected", err => {})
  .on("completed", () => {});

rq.push(app.use("/wa", router));

app.listen(port);
console.log("Magic happens on port " + port);

Ответы [ 2 ]

1 голос
/ 16 марта 2019

node-request-queue создается для пакета request, который отличается от express.

Вы можете выполнить очередь, используя простейшую библиотеку очередей обещаний p-очередь .Он поддерживает параллелизм и выглядит намного более читабельным, чем любые другие библиотеки.Вы можете легко переключаться с обещаний в более надежную очередь, например bull, в более позднее время.

. Таким образом вы можете создать очередь,

const PQueue = require("p-queue");
const queue = new PQueue({ concurrency: 1 });

.асинхронная функция в очереди, она будет возвращать разрешенные данные, если вы ее слушаете,

queue.add(() => scrape(url));

Поэтому вместо добавления маршрута в очередь вы просто удаляете другие линии вокруг нее и сохраняете маршрутизатор как есть.

// here goes one route
app.use('/wa', router);

Внутри одного из файлов вашего маршрутизатора,

const routes = require("express").Router();

const PQueue = require("p-queue");
// create a new queue, and pass how many you want to scrape at once
const queue = new PQueue({ concurrency: 1 });

// our scraper function lives outside route to keep things clean
// the dummy function returns the title of provided url
const scrape = require('../scraper');

async function queueScraper(url) {
  return queue.add(() => scrape(url));
}

routes.post("/", async (req, res) => {
  const result = await queueScraper(req.body.url);
  res.status(200).json(result);
});

module.exports = routes;

Убедитесь, что очередь включена в маршрут, а не наоборот.Создайте только одну очередь в файле routes или там, где вы запускаете скребок.

Вот содержимое файла скребка, вы можете использовать любой контент, который вам нужен, это просто рабочий манекен,

const puppeteer = require('puppeteer');

// a dummy scraper function
// launches a browser and gets title
async function scrape(url){
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.goto(url);
  const title = await page.title();
  await browser.close();
  return title
}

module.exports = scrape;

Результат с использованием curl:

enter image description here

Вот моего репозитория git , в котором есть рабочий код с образцом очереди.

Предупреждение

Если вы используете какую-либо из таких очередей, вы заметите, что у вас возникли проблемы с одновременным обработкой 100 результатов, и запрос к вашему API будет отсрочен из-за истечения времени ожидания 99 других URLв очереди.Вот почему вы должны узнать больше о реальной очереди и параллелизме позже.

Как только вы поймете, как работает очередь, вам помогут другие ответы о cluster-puppeteer, rabbitMQ, bull queue и т. Д.время :).

1 голос
/ 16 марта 2019

Вы можете использовать кукловод-кластер для этого (отказ от ответственности: я автор). Вы можете настроить кластер с пулом только одного работника. Поэтому задания, переданные кластеру, будут выполняться одна за другой.

Поскольку вы не сказали, что должен делать ваш скрипт кукловода, в этом примере кода я извлекаю заголовок страницы в качестве примера (заданного через /wa?url=...) и предоставляю результат в ответ.

// setup the cluster with only one worker in the pool
const cluster = await Cluster.launch({
    concurrency: Cluster.CONCURRENCY_CONTEXT,
    maxConcurrency: 1,
});

// define your task (in this example we extract the title of the given page)
await cluster.task(async ({ page, data: url }) => {
    await page.goto(url);
    return await page.evaluate(() => document.title);
});

// Listen for the request
app.get('/wa', async function (req, res) {
    // cluster.execute will run the job with the workers in the pool. As there is only one worker
    // in the pool, the jobs will be run sequentially
    const result = await cluster.execute(req.query.url);
    res.end(result);
});

Это минимальный пример. Возможно, вы захотите поймать любые ошибки в вашем слушателе. Для получения дополнительной информации посмотрите более сложный пример с сервером снимков экрана с использованием экспресс-хранилища в хранилище.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...