Использование tesseract для извлечения текста и изображений (фотографий, диаграмм и таблиц), на которые есть ссылки в выходном тексте - PullRequest
0 голосов
/ 24 ноября 2018

У меня есть PDF, составленный из отсканированных изображений, как графических, так и текстовых.Под картинками я подразумеваю фотографии, диаграммы и таблицы.

В качестве окончательного результата я хочу, чтобы epub читался с электронных книг, чтобы можно было выбрать:

  • текст ивыделенный шрифт является масштабируемым, я могу применять заметки (если поддерживается устройством), ссылки TOC на месте
  • графические изображения сохраняются

Для обработки ссылок TOC и текстовых свойств я достигаючтобы получить хороший текст, я могу вручную отредактировать и применить разметку, чтобы затем окончательно обработать ее в Epub

. Для графических изображений я не могу найти способ сохранить их, например извлечь их в каталог изображенийИ ссылаться на них в txt

Я хочу избежать ручного создания и ссылки на изображения, я хочу автоматизировать это: я пропускаю использование свойств в документации tesseract?

  • Могу ли я извлечь и ссылаться на графические изображения с помощью тессеракта?
  • в качестве альтернативы, какие шаги - или сценарии (предпочтение python) или инструменты - можно использовать для извлечения и ссылки на изображения из PDF-файла с возможностью поиска, созданного с помощью tesseract?

Iпросмотрел документацию по tesseract, но не смог найти этот вариант использования:

https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc

tesseract mybook.tif mybookImages get.images

не создавал изображения.


STEPS

  1. обработать исходный pdf в tiff с использованием ghostscript

gs -q -r600x600 -dNOPAUSE -sDEVICE=tiffg4 -dBATCH -sOutputFile=mybook.tif sourcePDF.pdf -c quit

Process TIFF в TXT: я могу применить разметку к TXT и редактировать ее, но я теряю графические изображения!

tesseract -o -l eng mybook.tif mybook

обработать tiff в доступном для поиска pdf: pdf доступен для поиска, но шрифт отображается как шумный, я не могу редактировать текст и применять разметку

tesseract -o -l eng mybook.tif mybook pdf

в конечном итоге использовать asciidoc для упрощения процесса редактирования, чтобы отредактировать разметку и ссылку на изображение в тексте, а затем преобразовать в epub ... но как я могу извлечь изображения из файла формата tiff или с возможностью поиска, сохраняя ссылки в окончательном тексте?

https://asciidoctor.org/docs/asciidoctor-epub3/#working-with-images

...