Я пытаюсь очистить изображения на URL-адресах Twitter (например, https://pbs.twimg.com/media/some-string-of-numbers-and-letters.jpg), используя rvest, но я продолжаю получать пустые html документы. Существует иерархия html, но в элементах ничего нет. Например:
library(rvest)
library(imager)
media <- read_html('https://pbs.twimg.com/media/DnLh3aJV4AANzdJ.jpg')
#Scrape the media url for the image
twt_img <- media %>%
html_nodes('img') %>%
html_attr('src')
twt_img
plot(load.image(twt_img))
Однако, когда я запускаю этот код, я получаю структуру html с View(media)
, но кажется, что нет элементов, которые не являются символьными (0) или выходными данными NA , Кто-нибудь знает, как это исправить или почему это может быть?
Я могу запустить учебник по очистке изображения, найденный здесь: https://stat4701.github.io/edav/2015/04/02/rvest_tutorial/, но по какой-то причине в Twitter, html странно для меня переводит.
Заранее спасибо!