Я получаю от двух или трех разных организаций PDF документы.Документы PDF всегда представляют собой ограниченный набор форм и имеют текстовый идентификатор, например «Форма XXX / XXX» и т. П.
Каждая организация имеет идентификатор в другом месте в документе.Кроме того, номера форм различаются для каждой организации.
Теперь я хочу на первом этапе определить, из какой организации отправляется документ.На втором шаге я хочу определить, какую из форм этой организации PDF-файл.
Как бы я это взял?
На первом этапе, я думаю, что можно попытаться определить "Стандартные разделы ", как изображение в верхнем левом углу, определенный логотип в определенном разделе документа или тому подобное.
Как бы я это сделал?
Преобразуйте первую сторону PDF в изображение со стандартным размером
ищите различные знаки распознавания в соответствующих местах, пока не будет обнаружен один
Вторым шагом будет:
обрезать изображение в том месте, где соответствующая организация имеет код «Форма xxx / xx».
OCR обрезанное изображение
извлечение кода формы
Я думаю, что я мог бы сделать это в Python с подушкой и тессерактом.
Будет ли лучший способ?Например, библиотека машинного обучения?
Большое спасибо за любой вклад!