Question

Как следует из названия, я пытаюсь определить, можно ли

передать в pdf
OCR, чтобы сделать его доступным для поиска
экспортировать тот же (теперь доступный для поиска) PDF

На основании моих исследований, шаги 1 и 2 не должны быть слишком сложными при использовании чего-то вроде AWS Textract или Tesseract , однако оба, похоже, возвращают только экспортированный текст.

Я мог бы затем преобразовать этот экспортированный текст в новый PDF, однако он потерял бы внешний вид и форматирование исходного PDF.Есть ли что-нибудь, что я мог бы сделать, чтобы избежать этого?

Я бы хотел настроить функцию Node.js AWS Lambda, которая автоматически обрабатывает этот процесс при загрузке файлов (так что пользователи могут пропустить текущий ручной шаг по обработке этой операции).в Adobe Acrobat для каждого файла), однако мне нужно будет сохранить исходный формат PDF.

Jim Grigoryan · Answer 1 · 01 мая 2019

Мне известны два варианта:

(1) Сначала самое простое: если использование онлайн ocr в порядке, вы можете напрямую создать PDF с возможностью поиска с помощью бесплатного OCR API,

Вы загружаете PDF, и API возвращает ссылку для скачивания в PDF с возможностью поиска.

(2) Если вы хотите / должны сделать это локально: Tesseract может вернуть результат распознавания в формате hOCR. При этом вы можете использовать такой инструмент, как hocr2pdf

Автоматизируйте процесс для распознавания PDF и сделайте его доступным для поиска

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Автоматизируйте процесс для распознавания PDF и сделайте его доступным для поиска

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы