Моя задача - идентифицировать патчи персонажей на изображении документа. Рассмотрим изображение ниже:
На основе бумаги для извлечения символьных патчей будет принят метод на основе MSER для обнаружение символов-кандидатов.
"Основное преимущество метода, основанного на MSER, заключается в том, что такой алгоритм способен находить наиболее разборчивые символы даже при низком качестве изображения документа."
Другая статья посвящена MSER. Мне трудно понять последний документ. Может ли кто-нибудь объяснить мне в простых терминах шаги, которые я должен предпринять для реализации MSER
и извлечения патчей символов в моем образце документа. Я реализую его в Python, и мне нужно полностью понять asp / понять, как работает MSER.
Ниже приведены шаги по идентификации патчей символов в документе изображения (исходя из того, как я его понимаю). Пожалуйста, поправьте меня, если я ошибаюсь)
"Сначала пиксели отсортированы по интенсивности"
Мое понимание:
Скажите, например, у меня есть 5 пикселей в изображении с интенсивностями (Pixel 1) 1, (Pixel 2) 9,(Pixel 3) 255,(Pixel 4) 3,(Pixel 5) 4
последовательно, а затем, если отсортировать все больше, исходя из интенсивности, получится вывод: Pixel 1,4,5,2 and 3
.
После сортировки пиксели помещаются в изображение (в порядке убывания или увеличения) и список подключенных компонентов и их областей поддерживается с помощью эффективного алгоритма поиска объединения.
Мое понимание:
Используя пример из номера 1. Пиксели будут расположены, как показано ниже. Пиксельный компонент / группа и координаты изображения X, Y являются лишь примерами.
Pixel Number | Intensity Level | Pixel Component/Group | Image X,Y Coordinates
1 | 1 | Pixel Component # 5 | (14,12)
4 | 3 | Pixel Component # 1 | (234,213)
5 | 4 | Pixel Component # 2 | (231,14)
2 | 9 | Pixel Component # 3 | (23,21)
3 | 255 | Pixel Component # 1 | (234,214)
«В процессе создается структура данных, в которой площадь каждого подключенного компонента сохраняется как функция интенсивности».
Мое понимание:
Будет добавлен столбец в таблице в # 2 с именем Area
. Он будет подсчитывать количество пикселей в указанном c компоненте с тем же уровнем интенсивности. Это похоже на объединение пикселей в группе компонентов с одинаковым уровнем интенсивности.
4. "Наконец, выбираются уровни интенсивности, которые являются локальными минимумами скорости изменения функции площади в качестве порогов, порождающих MSER. В выходных данных каждый MSER представлен положением локального минимума интенсивности (или максимума) и порога. "
Вопросы:
Как получить локальные минимумы скорость изменения функции площади?
Пожалуйста, помогите мне понять это.