В настоящее время я работаю с PDF-файлами в R. В частности, мне нужно собрать информацию, связанную с гиперссылками, встроенными в текст PDF-файла. До сих пор я разбирал pdf-файл с использованием пакета pdftools
. Тем не менее, он отображает только текст, но не основные гиперссылки. Ниже вы можете найти пример pdf-файла с двумя встроенными гиперссылками (слова «termincia» и «aqui») и кодом, который я использовал.
library(dplyr)
txt <- pdftools::pdf_text(pdf = "http://www.corteidh.or.cr/docs/comunicados/cp_47_17.pdf") %>%
paste(., collapse = "") %>%
stringr::str_replace_all("[[:cntrl:]]", " ")
Я также пробовал:
- шаг выше также после загрузки файлов
pdftools::pdf_attachments()
что дает мне пустой список
- и
pdftools::pdf_info()
также безуспешно.
Я мог бы сделать это вручную, но корпус довольно большой, и поэтому, прежде чем идти в этом направлении, кто-нибудь знает, как я мог бы идентифицировать и извлекать встроенные гиперссылки из PDF-файлов, используя этот пакет или что-нибудь еще?
Большое спасибо!