Настройте случайные прокси с R для очистки - PullRequest
0 голосов
/ 04 сентября 2018

Я удалил веб-сайт, разрешающий проверку правил роботов, но иногда меня блокируют.

В то время как я связался с администратором, чтобы понять почему, я хочу понять, как я могу использовать различные прокси в R, чтобы продолжать очистку без блокировки.

Я следовал этому быстрому уроку: https://support.rstudio.com/hc/en-us/articles/200488488-Configuring-R-to-Use-an-HTTP-or-HTTPS-Proxy

Итак, я отредактировал файл среды:

file.edit('~/.Renviron')

и в этом я вставил список прокси для случайного выбора:

proxies_list <- c("128.199.109.241:8080","113.53.230.195:3128","125.141.200.53:80","125.141.200.14:80","128.199.200.112:138","149.56.123.99:3128","128.199.200.112:80","125.141.200.39:80","134.213.29.202:4444")
proxy <-paste0('https://', sample(proxies_list, 1))
https_proxy=proxy 

Но когда я перебираю этот код:

download.file(url_proxy, destfile ='output.html',quiet = TRUE)
html_output <- read_html('output.html')

Я продолжаю блокироваться.

Не правильно ли я настроил прокси?

Спасибо! М.

1 Ответ

0 голосов
/ 04 сентября 2018

Вам нужно установить переменные окружения, а не переменные R. Подробнее см. ?download.file.

например

Sys.setenv(http_proxy=proxy)

прежде чем что-либо еще произойдет. Также обратите внимание на предупреждение в документах:

These environment variables must be set before the download code is
first used: they cannot be altered later by calling 'Sys.setenv'.
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...