очистить URL-адрес изображения с интернет-сайта одежды с помощью инструмента R или Data Miner - PullRequest
0 голосов
/ 02 мая 2018

Я хочу очистить URL-адреса изображений с сайта https://www.raworange.com/collections/all-clothing'. Всего имеется 9 страниц, поэтому вы хотите очистить изображения со всех страниц, а также скачать этот URL с именем изображения. Я попробовал этот код:

library(rvest)
url <- "https://www.raworange.com/collections/all-clothing"
imgsrc <- read_html(url) %>%
  html_node(xpath = '#bc-sf-filter-products img') %>%
  html_attr('src')
imgsrc
download.file(paste0(url, imgsrc), destfile = basename(imgsrc))

Это не работает. Любая помощь приветствуется.

1 Ответ

0 голосов
/ 03 мая 2018

Как обсуждалось в комментариях, это будет чтение страницы и создание списка пар названия продукта из h2 под каждым элементом и списка URL-адресов img из предварительного просмотра продукта:

library(rvest)
library(purrr)

url <- "https://www.raworange.com/collections/all-clothing"
html <- read_html(url)
products <- html %>% html_nodes(css='div.product-preview')

products %>% map(function(product) {
  name <- product %>% html_nodes(css='h2.product_title') %>% html_text()
  imgs <- product %>% html_nodes(css='img') %>% html_attr('src')
  c(name, list(imgs))
})

Я также предложил вам получить URL-адреса для других страниц из ul # bc-sf-filter-bottom-pagination, но, похоже, он заполняется во время загрузки скриптом, поэтому его нелегко отсканировать с помощью rvest. Я думаю, что вам придется просмотреть URL-адреса подкачки в браузере и создать их самостоятельно, чтобы ваш код перебирал.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...