Извлечь / получить доступ к XML файлу, встроенному в PDF - PullRequest
0 голосов
/ 07 мая 2020

У меня есть PDF-файл со встроенным файлом XML. Я хочу получить доступ к встроенному файлу XML в R.

Один из способов решить проблему вручную - открыть файл PDF с помощью Adobe Acrobat и вручную сохранить встроенный файл XML оттуда (см. здесь ). Затем к сохраненному файлу XML можно будет получить доступ в R с помощью пакета XML.

Однако, поскольку мне нужно запускать это для множества PDF-файлов, а остальной код находится в R, я ищу решение в R. Пакет pdftools не кажется чтобы предоставить решение, а также pdftk , похоже, не реализован для R.

1 Ответ

1 голос
/ 07 мая 2020

Похоже, что pdftools имеет функцию pdf_attachments(). Используя пример файла pdf, который вы предоставили:

library(pdftools)

a<-pdftools::pdf_attachments("GetIndividualAttachment.pdf")

txt <- a[[1]]$data
txt
#>  [1] 41 73 70 6f 73 65 2e 50 64 66 20 66 6f 72 20 2e 4e 45 54

rawToChar(txt)
#> [1] "Aspose.Pdf for .NET"

Вы сможете извлечь XML вложение аналогичным образом.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...