Извлечение символов из форм с полями ввода в штучной упаковке - PullRequest
0 голосов
/ 22 мая 2019

Я пытаюсь извлечь символы из всех полей в формах с помощью полей, таких как показано здесь:

Образец печатной формы

Sample printed form

Мой текущий подход заключается в следующем:

  1. Обрезать поле из формы на основе некоторого стандартного формата.
  2. Предварительная обработка изображений и поиск контуров вокруг полей полей.
  3. В зависимости от количества блоков в этом поле обрежьте каждый небольшой блок и запустите распознавание символов на этих обрезанных изображениях символов.

Коробки могут быть слегка наклонены на изображениях. Я использую алгоритм выравнивания, но он по-прежнему не всегда выравнивает края блока. Это можно увидеть на этом изображении:

Дата выравнивания урожая

Aligned date crop.

На таких изображениях, когда я обрезаю символы, используя прямые линии (шаг 3 алгоритма, упомянутого выше), также включаются края полей, которые путают модуль распознавания символов. Например, число «3» и «край коробки» иногда представлены как 31.

Я хочу использовать только предварительно обученные модели и, следовательно, я ищу лучший способ для правильного извлечения символов из полей в штучной упаковке.

Я был бы очень признателен за любую помощь, оказанную SO-сообществом.

...