Question

Я получаю от двух или трех разных организаций PDF документы.Документы PDF всегда представляют собой ограниченный набор форм и имеют текстовый идентификатор, например «Форма XXX / XXX» и т. П.

Каждая организация имеет идентификатор в другом месте в документе.Кроме того, номера форм различаются для каждой организации.

Теперь я хочу на первом этапе определить, из какой организации отправляется документ.На втором шаге я хочу определить, какую из форм этой организации PDF-файл.

Как бы я это взял?

На первом этапе, я думаю, что можно попытаться определить "Стандартные разделы ", как изображение в верхнем левом углу, определенный логотип в определенном разделе документа или тому подобное.

Как бы я это сделал?

Преобразуйте первую сторону PDF в изображение со стандартным размером
ищите различные знаки распознавания в соответствующих местах, пока не будет обнаружен один

Вторым шагом будет:

обрезать изображение в том месте, где соответствующая организация имеет код «Форма xxx / xx».
OCR обрезанное изображение
извлечение кода формы

Я думаю, что я мог бы сделать это в Python с подушкой и тессерактом.

Будет ли лучший способ?Например, библиотека машинного обучения?

Большое спасибо за любой вклад!

Как идентифицировать ограниченный набор различных стандартных PDF-файлов с помощью Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как идентифицировать ограниченный набор различных стандартных PDF-файлов с помощью Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы