У меня есть PDF, составленный из отсканированных изображений, как графических, так и текстовых.Под картинками я подразумеваю фотографии, диаграммы и таблицы.
В качестве окончательного результата я хочу, чтобы epub читался с электронных книг, чтобы можно было выбрать:
- текст ивыделенный шрифт является масштабируемым, я могу применять заметки (если поддерживается устройством), ссылки TOC на месте
- графические изображения сохраняются
Для обработки ссылок TOC и текстовых свойств я достигаючтобы получить хороший текст, я могу вручную отредактировать и применить разметку, чтобы затем окончательно обработать ее в Epub
. Для графических изображений я не могу найти способ сохранить их, например извлечь их в каталог изображенийИ ссылаться на них в txt
Я хочу избежать ручного создания и ссылки на изображения, я хочу автоматизировать это: я пропускаю использование свойств в документации tesseract?
- Могу ли я извлечь и ссылаться на графические изображения с помощью тессеракта?
- в качестве альтернативы, какие шаги - или сценарии (предпочтение python) или инструменты - можно использовать для извлечения и ссылки на изображения из PDF-файла с возможностью поиска, созданного с помощью tesseract?
Iпросмотрел документацию по tesseract, но не смог найти этот вариант использования:
https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc
tesseract mybook.tif mybookImages get.images
не создавал изображения.
STEPS
- обработать исходный pdf в tiff с использованием ghostscript
gs -q -r600x600 -dNOPAUSE -sDEVICE=tiffg4 -dBATCH -sOutputFile=mybook.tif sourcePDF.pdf -c quit
Process TIFF в TXT: я могу применить разметку к TXT и редактировать ее, но я теряю графические изображения!
tesseract -o -l eng mybook.tif mybook
обработать tiff в доступном для поиска pdf: pdf доступен для поиска, но шрифт отображается как шумный, я не могу редактировать текст и применять разметку
tesseract -o -l eng mybook.tif mybook pdf
в конечном итоге использовать asciidoc для упрощения процесса редактирования, чтобы отредактировать разметку и ссылку на изображение в тексте, а затем преобразовать в epub ... но как я могу извлечь изображения из файла формата tiff или с возможностью поиска, сохраняя ссылки в окончательном тексте?
https://asciidoctor.org/docs/asciidoctor-epub3/#working-with-images