R: Извлечение встроенных гиперссылок из PDF-файла с помощью R - PullRequest
0 голосов
/ 28 августа 2018

В настоящее время я работаю с PDF-файлами в R. В частности, мне нужно собрать информацию, связанную с гиперссылками, встроенными в текст PDF-файла. До сих пор я разбирал pdf-файл с использованием пакета pdftools. Тем не менее, он отображает только текст, но не основные гиперссылки. Ниже вы можете найти пример pdf-файла с двумя встроенными гиперссылками (слова «termincia» и «aqui») и кодом, который я использовал.

library(dplyr) txt <- pdftools::pdf_text(pdf = "http://www.corteidh.or.cr/docs/comunicados/cp_47_17.pdf") %>% paste(., collapse = "") %>% stringr::str_replace_all("[[:cntrl:]]", " ")

Я также пробовал:

  1. шаг выше также после загрузки файлов
  2. pdftools::pdf_attachments() что дает мне пустой список
  3. и pdftools::pdf_info() также безуспешно.

Я мог бы сделать это вручную, но корпус довольно большой, и поэтому, прежде чем идти в этом направлении, кто-нибудь знает, как я мог бы идентифицировать и извлекать встроенные гиперссылки из PDF-файлов, используя этот пакет или что-нибудь еще?

Большое спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...