Как идентифицировать ограниченный набор различных стандартных PDF-файлов с помощью Python - PullRequest
0 голосов
/ 06 июня 2019

Я получаю от двух или трех разных организаций PDF документы.Документы PDF всегда представляют собой ограниченный набор форм и имеют текстовый идентификатор, например «Форма XXX / XXX» и т. П.

Каждая организация имеет идентификатор в другом месте в документе.Кроме того, номера форм различаются для каждой организации.

Теперь я хочу на первом этапе определить, из какой организации отправляется документ.На втором шаге я хочу определить, какую из форм этой организации PDF-файл.

Как бы я это взял?

На первом этапе, я думаю, что можно попытаться определить "Стандартные разделы ", как изображение в верхнем левом углу, определенный логотип в определенном разделе документа или тому подобное.

Как бы я это сделал?

  1. Преобразуйте первую сторону PDF в изображение со стандартным размером

  2. ищите различные знаки распознавания в соответствующих местах, пока не будет обнаружен один

Вторым шагом будет:

  1. обрезать изображение в том месте, где соответствующая организация имеет код «Форма xxx / xx».

  2. OCR обрезанное изображение

  3. извлечение кода формы

Я думаю, что я мог бы сделать это в Python с подушкой и тессерактом.

Будет ли лучший способ?Например, библиотека машинного обучения?

Большое спасибо за любой вклад!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...