Я очищаю тысячи веб-страниц, используя пакет R rvest
.Чтобы не перегружать сервер, я синхронизировал функцию Sys.sleep()
с 5 секундами.
Она работает хорошо, пока мы не достигнем значения ~ 400 очищенных веб-страниц.Однако, кроме этого значения, я ничего не получаю, и все данные пусты, хотя ошибка не выдается.
Мне интересно, есть ли возможность изменить функцию Sys.sleep()
для очистки 350 веб-страниц по 5 секунд каждая, затем ждать, например, 5 минут, затем продолжить еще 350 веб-страниц ... и так далее.
Я проверял документацию по функции Sys.sleep()
, и только time
появляется в качестве аргумента.Итак, если это невозможно сделать с помощью этой функции, есть ли другая возможность или функция для решения этой проблемы при очистке огромного количества страниц?
ОБНОВЛЕНИЕ С ПРИМЕРОМ
Это часть моего кода.Объект links
состоит из более 8 тысяч ссылок.
title <- vector("character", length = length(links))
short_description <- vector("character", length = length(links))
for(i in seq_along(links)){
Sys.sleep(5)
aff_link <- read_html(links[i])
title[i] <- aff_link %>%
html_nodes("title") %>%
html_text()
short_description[i] <- aff_link %>%
html_nodes(".clp-lead__headline") %>%
html_text()
}