Проблемы со входом в LinkedIn через rvest - PullRequest
0 голосов
/ 24 марта 2019

Начинаем экспериментировать с веб-скребком, используя пакет rvest - особенно с сайтов, требующих входа в систему.

Как стартер для 10, я пытался войти в LinkedIn, так как я нашел некоторый, по-видимому, простой код для этого . Однако, это не работает для меня - меня перенаправляют на linkedin.com/checkpoint/lg/login?errorKey=unexpected_error. Код ниже - любые предложения очень ценятся.

library(rvest)
library(httr)

url <- "https://www.linkedin.com/"
uastring <- "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"
session <- html_session(url, user_agent(uastring))

form <-
  read_html(url) %>% 
  html_nodes("form.login-form") %>% 
  html_form()

filled_form <- set_values(form[[1]],
                          session_key = [email],
                          session_password = [password])
sub <-
  submit_form(session, filled_form)

#> Submitting with 'NULL'

sub

#> <session> https://www.linkedin.com/checkpoint/lg/login?errorKey=unexpected_error
#>   Status: 200
#>   Type:   text/html; charset=utf-8
#>   Size:   22647

Статус 200, но вход в систему не эффективен. Последующее jump_to дает мне следующую ошибку:

query <- jump_to(session, [profile url])

query

#> Error in http_statuses[[as.character(status)]]: subscript out of bounds

query <- jump_to(sub, [profile url])

query

#> Error in http_statuses[[as.character(status)]]: subscript out of bounds

...