Web-утилизация с помощью rvest - переход по ссылке, встроенной в значок, и загрузка файла по ссылке - PullRequest
0 голосов
/ 08 мая 2018

Я работаю в R и борюсь со следующей задачей при извлечении данных с веб-страницы: на веб-странице есть значок, который открывает документ PDF, если на него нажать. Я хотел бы:

  • определить ссылку, встроенную в иконку
  • загрузить документ в формате PDF.

Поскольку мне нужно будет выполнить эту задачу для> 100 случаев, я хотел бы автоматизировать эти 2 шага.

Теперь я определил формулу, которая поможет мне скачать файл pdf после определения ссылки

download.file('https://primalbase.com/assets/PrimalbaseWP.pdf', destfile = "Whitepaper_primalbase")

однако, я не могу заставить работать первую часть, которая говорит r перейти к ссылке с исходной страницы (https://icowatchlist.com/ico/primalbase). Я попытался использовать гаджет Selector, чтобы идентифицировать объектный код, а затем применить follow_link формула, но R читает ее как значок, а не как ссылку:

follow_link('.btnGrey')

Вот пример URL, с которым я работаю:

URL_comp <- 'https://icowatchlist.com/ico/primalbase'
page_comp <- read_html(URL_comp)

Может кто-нибудь помочь мне найти способ решить эту проблему?

Большое спасибо заранее!

...