Читать текст из PDF - PullRequest
       7

Читать текст из PDF

0 голосов
/ 18 июня 2019

Я использую pdftools в R для получения текста из pdf, но у меня есть несколько проблем с получением информации.

С этим pdf для пример , когда я пытаюсь получить текст:

library(pdftools)
pdf_text(paste(ruta, "Factura.pdf"))

(Рута - это то, куда вы положили PDF). С этим файлом я ничего не получаю. Этот шаг работает с PDF, которые идеально подходят (например, this ), но когда PDF сканировал информацию, теряется точность.

Есть ли другой способ получить текст из pdf с буквой R, который решает проблему такого типа?

Спасибо

1 Ответ

1 голос
/ 18 июня 2019

Проблема в том, что ваш пример - это изображение PDF, которое просто хранится в формате PDF.

Если вы хотите извлечь текст из изображения PDF.Вы можете использовать Tesseract

library(tesseract)
eng <- tesseract("eng")
text <- tesseract::ocr("http://jeroen.github.io/images/testocr.png", engine = eng)
cat(text)

Кроме того, вам сначала нужно конвертировать pdf в img.Отметьте этот ответ

im.convert("bm.pdf", output = "bm.png")

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...