Ошибка webscraping в curl в R для одного конкретного сайта - PullRequest
0 голосов
/ 04 апреля 2019

Я пытаюсь очистить сайт с помощью пакета rvest. И что бы я ни пытался, у меня все еще есть проблемы с запуском html_session.

library(rvest)
library(httr)

session <- html_session("https://www.gpw.pl/spolki")

session <- httr::GET("https://www.gpw.pl/spolki")

Для тех, кого я получаю:

Error in curl::curl_fetch_memory(url, handle = handle) : 
 Failure when receiving data from the peer

Почему это? Этот сайт пытается заблокировать меня от соскоба?

РЕДАКТИРОВАТЬ: Я не могу найти на их веб-сайте ничего, что прямо указывало бы на то, что они не допускают соскоб. Существуют ли другие способы, которые позволили бы мне проверить, разрешены ли пауки на этом сайте?

Если у кого-то есть какие-нибудь интересные идеи относительно того, как мне решить эту проблему, не стесняйтесь поделиться ими ниже этого вопроса:)

...