Внедрение максимально стабильных экстремальных областей (MSER) ​​в идентификации символов в изображениях документов - PullRequest
0 голосов
/ 26 апреля 2020

Моя задача - идентифицировать патчи персонажей на изображении документа. Рассмотрим изображение ниже:

enter image description here

На основе бумаги для извлечения символьных патчей будет принят метод на основе MSER для обнаружение символов-кандидатов.

"Основное преимущество метода, основанного на MSER, заключается в том, что такой алгоритм способен находить наиболее разборчивые символы даже при низком качестве изображения документа."

Другая статья посвящена MSER. Мне трудно понять последний документ. Может ли кто-нибудь объяснить мне в простых терминах шаги, которые я должен предпринять для реализации MSER и извлечения патчей символов в моем образце документа. Я реализую его в Python, и мне нужно полностью понять asp / понять, как работает MSER.

Ниже приведены шаги по идентификации патчей символов в документе изображения (исходя из того, как я его понимаю). Пожалуйста, поправьте меня, если я ошибаюсь)

  1. "Сначала пиксели отсортированы по интенсивности"

    Мое понимание:

    Скажите, например, у меня есть 5 пикселей в изображении с интенсивностями (Pixel 1) 1, (Pixel 2) 9,(Pixel 3) 255,(Pixel 4) 3,(Pixel 5) 4 последовательно, а затем, если отсортировать все больше, исходя из интенсивности, получится вывод: Pixel 1,4,5,2 and 3.

  2. После сортировки пиксели помещаются в изображение (в порядке убывания или увеличения) и список подключенных компонентов и их областей поддерживается с помощью эффективного алгоритма поиска объединения.

    Мое понимание:

    Используя пример из номера 1. Пиксели будут расположены, как показано ниже. Пиксельный компонент / группа и координаты изображения X, Y являются лишь примерами.

     Pixel Number | Intensity Level | Pixel Component/Group | Image X,Y Coordinates
          1       |        1        |  Pixel Component # 5 | (14,12)
          4       |        3        |  Pixel Component # 1 | (234,213)
          5       |        4        |  Pixel Component # 2 | (231,14)
          2       |        9        |  Pixel Component # 3 | (23,21)
          3       |      255        |  Pixel Component # 1 | (234,214)
    
  3. «В процессе создается структура данных, в которой площадь каждого подключенного компонента сохраняется как функция интенсивности».

    Мое понимание:

    Будет добавлен столбец в таблице в # 2 с именем Area. Он будет подсчитывать количество пикселей в указанном c компоненте с тем же уровнем интенсивности. Это похоже на объединение пикселей в группе компонентов с одинаковым уровнем интенсивности.

4. "Наконец, выбираются уровни интенсивности, которые являются локальными минимумами скорости изменения функции площади в качестве порогов, порождающих MSER. В выходных данных каждый MSER представлен положением локального минимума интенсивности (или максимума) и порога. "

Вопросы:

Как получить локальные минимумы скорость изменения функции площади?

Пожалуйста, помогите мне понять это.

...