Question

Я использую pdftools в R для получения текста из pdf, но у меня есть несколько проблем с получением информации.

С этим pdf для пример , когда я пытаюсь получить текст:

library(pdftools)
pdf_text(paste(ruta, "Factura.pdf"))

(Рута - это то, куда вы положили PDF). С этим файлом я ничего не получаю. Этот шаг работает с PDF, которые идеально подходят (например, this ), но когда PDF сканировал информацию, теряется точность.

Есть ли другой способ получить текст из pdf с буквой R, который решает проблему такого типа?

Спасибо

Yusaku · Answer 1 · 18 июня 2019

Проблема в том, что ваш пример - это изображение PDF, которое просто хранится в формате PDF.

Если вы хотите извлечь текст из изображения PDF.Вы можете использовать Tesseract

library(tesseract)
eng <- tesseract("eng")
text <- tesseract::ocr("http://jeroen.github.io/images/testocr.png", engine = eng)
cat(text)

Кроме того, вам сначала нужно конвертировать pdf в img.Отметьте этот ответ

im.convert("bm.pdf", output = "bm.png")

Читать текст из PDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Читать текст из PDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов