Очистка нескольких подкаталогов без отправки слишком большого количества запросов с использованием рентгеновских лучей - PullRequest
0 голосов
/ 27 сентября 2018

Я бы хотел очистить субдомены сайта.скажем, 20 из них.В каждом поддомене есть несколько страниц, поэтому я собираюсь делать много запросов.

Я никогда не делал ничего подобного.Мои привычки к соскобу обычно ограничены парой страниц, поэтому я не уверен, что мне следует делать это с уважением к сайту.

вот что у меня есть: массив ссылок каждого подкаталога, который я хочу почистить, иforEach () применяется к этому массиву.

Я использую нод и рентген для выполнения работы:

    const Xray = require('x-ray')

    const x = Xray({
      filters: {
        trim: function (value) {
          return typeof value === 'string' ? value.trim() : value
        }
      }
    }).throttle(1, '1s').delay('1s', '3s')

    const mongoose = require('mongoose')
    const Article = require('./models/article.model')

    const links = ['https://www.page.com/directory_1/archives', 'https://www.page.com/directory_2/archives', 'https://www.page.com/directory_3/archives', etc]



    const scraping_page = () => {

    links.forEach((link) => {    
    //Here goes the scraping logic and saving of the data
    }
}

    module.exports = scraping_page

вот мой вопрос: это хороший способ сделать это?forEach () не ждет завершения одного процесса, прежде чем перейти к следующему, верно?

даже с учетом газа и задержки, я не уверен, посылаю ли я слишком много запросов на сайт.

Есть ли какой-либо стандартизированный или полустандартизированный способ сделать это?

Заранее спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...