Начинаем экспериментировать с веб-скребком, используя пакет rvest
- особенно с сайтов, требующих входа в систему.
Как стартер для 10, я пытался войти в LinkedIn, так как я нашел некоторый, по-видимому, простой код для этого . Однако, это не работает для меня - меня перенаправляют на linkedin.com/checkpoint/lg/login?errorKey=unexpected_error
. Код ниже - любые предложения очень ценятся.
library(rvest)
library(httr)
url <- "https://www.linkedin.com/"
uastring <- "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"
session <- html_session(url, user_agent(uastring))
form <-
read_html(url) %>%
html_nodes("form.login-form") %>%
html_form()
filled_form <- set_values(form[[1]],
session_key = [email],
session_password = [password])
sub <-
submit_form(session, filled_form)
#> Submitting with 'NULL'
sub
#> <session> https://www.linkedin.com/checkpoint/lg/login?errorKey=unexpected_error
#> Status: 200
#> Type: text/html; charset=utf-8
#> Size: 22647
Статус 200, но вход в систему не эффективен. Последующее jump_to
дает мне следующую ошибку:
query <- jump_to(session, [profile url])
query
#> Error in http_statuses[[as.character(status)]]: subscript out of bounds
query <- jump_to(sub, [profile url])
query
#> Error in http_statuses[[as.character(status)]]: subscript out of bounds