Уважаемое сообщество Stackoverflow,
Я пытаюсь извлечь уникальные цифровые идентификаторы с веб-сайта, используя stringR.На сайте есть несколько уникальных doi, и после окончания doi за ним следует символ «Cite».
[1] Я получаю информацию с веб-сайта pg <- read_html ("<a href="https://search.datacite.org/works?query=Movebank&resource-type-id=dataset" rel="nofollow noreferrer">https://search.datacite.org/works?query=Movebank&resource-type-id=dataset")[2] Я пытаюсь получить 26 уникальных строк символов с веб-сайта, которые начинаются с "doi"
[3] Я планировал использовать string_match_all с началом, которое должно совпадать с "https://doi.org/", некоторыми символамимежду "*" и концом должно совпадать слово "Cite".
str_match_all (html_text (html_nodes (pg, "body")), pattern = "^ https://doi.org/*Cite$") [4]Пример того, как может выглядеть один из этих doi:
https://doi.org/10.5441/001/1.41076dq1/6 Цитировать
Любая помощь очень ценится!
С уважением,
Diego