Автоматизируйте процесс для распознавания PDF и сделайте его доступным для поиска - PullRequest
1 голос
/ 01 мая 2019

Как следует из названия, я пытаюсь определить, можно ли

  1. передать в pdf
  2. OCR, чтобы сделать его доступным для поиска
  3. экспортировать тот же (теперь доступный для поиска) PDF

На основании моих исследований, шаги 1 и 2 не должны быть слишком сложными при использовании чего-то вроде AWS Textract или Tesseract , однако оба, похоже, возвращают только экспортированный текст.

Я мог бы затем преобразовать этот экспортированный текст в новый PDF, однако он потерял бы внешний вид и форматирование исходного PDF.Есть ли что-нибудь, что я мог бы сделать, чтобы избежать этого?

Я бы хотел настроить функцию Node.js AWS Lambda, которая автоматически обрабатывает этот процесс при загрузке файлов (так что пользователи могут пропустить текущий ручной шаг по обработке этой операции).в Adobe Acrobat для каждого файла), однако мне нужно будет сохранить исходный формат PDF.

1 Ответ

1 голос
/ 01 мая 2019

Мне известны два варианта:

(1) Сначала самое простое: если использование онлайн ocr в порядке, вы можете напрямую создать PDF с возможностью поиска с помощью бесплатного OCR API,

Вы загружаете PDF, и API возвращает ссылку для скачивания в PDF с возможностью поиска.

(2) Если вы хотите / должны сделать это локально: Tesseract может вернуть результат распознавания в формате hOCR. При этом вы можете использовать такой инструмент, как hocr2pdf

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...