Очистка URL объекта изображения Twitter в R - PullRequest
0 голосов
/ 25 января 2020

Я пытаюсь очистить изображения на URL-адресах Twitter (например, https://pbs.twimg.com/media/some-string-of-numbers-and-letters.jpg), используя rvest, но я продолжаю получать пустые html документы. Существует иерархия html, но в элементах ничего нет. Например:

library(rvest)
library(imager)

media <- read_html('https://pbs.twimg.com/media/DnLh3aJV4AANzdJ.jpg')
#Scrape the media url for the image
twt_img <- media %>% 
  html_nodes('img') %>% 
  html_attr('src')
twt_img
plot(load.image(twt_img))

Однако, когда я запускаю этот код, я получаю структуру html с View(media), но кажется, что нет элементов, которые не являются символьными (0) или выходными данными NA , Кто-нибудь знает, как это исправить или почему это может быть?

Я могу запустить учебник по очистке изображения, найденный здесь: https://stat4701.github.io/edav/2015/04/02/rvest_tutorial/, но по какой-то причине в Twitter, html странно для меня переводит.

Заранее спасибо!

...