Как следует из названия, я пытаюсь определить, можно ли
- передать в pdf
- OCR, чтобы сделать его доступным для поиска
- экспортировать тот же (теперь доступный для поиска) PDF
На основании моих исследований, шаги 1 и 2 не должны быть слишком сложными при использовании чего-то вроде AWS Textract или Tesseract , однако оба, похоже, возвращают только экспортированный текст.
Я мог бы затем преобразовать этот экспортированный текст в новый PDF, однако он потерял бы внешний вид и форматирование исходного PDF.Есть ли что-нибудь, что я мог бы сделать, чтобы избежать этого?
Я бы хотел настроить функцию Node.js AWS Lambda, которая автоматически обрабатывает этот процесс при загрузке файлов (так что пользователи могут пропустить текущий ручной шаг по обработке этой операции).в Adobe Acrobat для каждого файла), однако мне нужно будет сохранить исходный формат PDF.