получить ссылку на img в div # imgTagWrapperId - PullRequest
1 голос
/ 23 апреля 2019

Я хочу извлечь только ссылку на изображение в виде строки, используя rvest в R

Что я пробовал:

url <-"https://www.amazon.in/Livwell-Multipurpose-MultiColor-Polka- 
Lunch/dp/B07LGTPM3D/ref=sr_1_1_sspa?ie=UTF8&qid=1548701326&sr=8-1- 
spons&keywords=lunch+bag&psc=1"

webpage <- read_html(url)
imglink<-(webpage %>%
html_nodes("div#imgTagWrapperId") %>% 
html_nodes("img") %>%
html_attr("src"))

Я ожидаю, что imglink будет иметь значение: https://images -na.ssl-images-amazon.com / images / I / 51H-DAUxWzL.jpg

Однако, это очень длинный объект типа символа, который мне не нужен,Пожалуйста, помогите?

1 Ответ

0 голосов
/ 23 апреля 2019

Вы можете использовать идентификатор (и атрибут), показанный ниже, или извлечь из тега скрипта (путем преобразования в json объект javascript внутри тега)

require(rvest)
url <-"https://www.amazon.in/Livwell-Multipurpose-MultiColor-Polka-Lunch/dp/B07LGTPM3D/ref=sr_1_1_sspa?ie=UTF8&qid=1548701326&sr=8-1-spons&keywords=lunch+bag&psc=1"

webpage <- read_html(url)
r <- webpage %>%
            html_nodes("#landingImage") %>% 
            html_attr("data-a-dynamic-image")
imglink <- strsplit(r, '"')[[1]][2]
print(imglink)
...