распознавание текстового макета с помощью python - PullRequest
8 голосов
/ 12 июля 2011

Я пытаюсь отсортировать несколько тысяч отсканированных файлов и отсортировать их по папкам в зависимости от типа (т. Е. Если один из файлов является отсканированной копией формы A, то он должен находиться в папке формы A, если это сканированнаякопия формы B, затем она должна находиться в папке formB и т. д.).Я чувствую, что лучший способ сопоставления файлов и типов основан на их текстовых контурах, но я совершенно новичок в обработке изображений, поэтому, если есть лучшее решение, тогда я весь в ушах.

Я работаю в Python.Есть идеи, как лучше всего это сделать?PIL?OpenCV?imageMagick?

Заранее спасибо ...

Ответы [ 2 ]

4 голосов
/ 12 июля 2011

Эта библиотека, вероятно, вам интересна -
http://code.google.com/p/ocropus/
Он сделан googlers и позволяет вам выполнять OCR и анализ макетов из python.
У меня были некоторые проблемы с его установкой, но это было довольно давно, поэтому, возможно, все уже исправлено.

1 голос
/ 12 июля 2011

Я не знаю, в каком формате вы получили отсканированные документы, но pdfminer может выполнить анализ макета для PDF. Я полагаю, что это подойдет для вашей цели, при условии, что вы получите документы в несколько приличном формате PDF (если вы только что получили «чистые изображения», это не принесет вам никакой пользы)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...