Question

Я пытаюсь отсортировать несколько тысяч отсканированных файлов и отсортировать их по папкам в зависимости от типа (т. Е. Если один из файлов является отсканированной копией формы A, то он должен находиться в папке формы A, если это сканированнаякопия формы B, затем она должна находиться в папке formB и т. д.).Я чувствую, что лучший способ сопоставления файлов и типов основан на их текстовых контурах, но я совершенно новичок в обработке изображений, поэтому, если есть лучшее решение, тогда я весь в ушах.

Я работаю в Python.Есть идеи, как лучше всего это сделать?PIL?OpenCV?imageMagick?

Заранее спасибо ...

Aditya Mukherji · Answer 1 · 12 июля 2011

Эта библиотека, вероятно, вам интересна -
http://code.google.com/p/ocropus/
Он сделан googlers и позволяет вам выполнять OCR и анализ макетов из python.
У меня были некоторые проблемы с его установкой, но это было довольно давно, поэтому, возможно, все уже исправлено.

Steven · Answer 2 · 12 июля 2011

Я не знаю, в каком формате вы получили отсканированные документы, но pdfminer может выполнить анализ макета для PDF. Я полагаю, что это подойдет для вашей цели, при условии, что вы получите документы в несколько приличном формате PDF (если вы только что получили «чистые изображения», это не принесет вам никакой пользы)

распознавание текстового макета с помощью python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

распознавание текстового макета с помощью python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов