Я бы хотел очистить субдомены сайта.скажем, 20 из них.В каждом поддомене есть несколько страниц, поэтому я собираюсь делать много запросов.
Я никогда не делал ничего подобного.Мои привычки к соскобу обычно ограничены парой страниц, поэтому я не уверен, что мне следует делать это с уважением к сайту.
вот что у меня есть: массив ссылок каждого подкаталога, который я хочу почистить, иforEach () применяется к этому массиву.
Я использую нод и рентген для выполнения работы:
const Xray = require('x-ray')
const x = Xray({
filters: {
trim: function (value) {
return typeof value === 'string' ? value.trim() : value
}
}
}).throttle(1, '1s').delay('1s', '3s')
const mongoose = require('mongoose')
const Article = require('./models/article.model')
const links = ['https://www.page.com/directory_1/archives', 'https://www.page.com/directory_2/archives', 'https://www.page.com/directory_3/archives', etc]
const scraping_page = () => {
links.forEach((link) => {
//Here goes the scraping logic and saving of the data
}
}
module.exports = scraping_page
вот мой вопрос: это хороший способ сделать это?forEach () не ждет завершения одного процесса, прежде чем перейти к следующему, верно?
даже с учетом газа и задержки, я не уверен, посылаю ли я слишком много запросов на сайт.
Есть ли какой-либо стандартизированный или полустандартизированный способ сделать это?
Заранее спасибо.