Классификация типов образцов из файлов изображений - PullRequest
0 голосов
/ 15 февраля 2010

Какой подход вы бы предложили для автоматической классификации типов изображений? Образцы, вероятно, большие, с черным текстом на белом фоне.

Здесь определены категории с некоторыми примерами (ссылка на Google Книги): http://bit.ly/9Mnu7P Это расширенная версия системы классификации VOX-ATypI.

Мои первоначальные мысли по этому поводу состояли в том, чтобы обучить систему множеству отдельных выборок символов из каждой категории, но мне интересно, есть ли лучший способ, который устранял бы необходимость выполнять сравнение по одной букве за раз.

1 Ответ

2 голосов
/ 17 февраля 2010

Во-первых, вам нужно извлечь особенности для классификации.Гарнитуры, как правило, различаются по толщине линий, наличию засечек, «округлости» характерных частей.Таким образом, возможными функциями являются:

  • Доля количества черных пикселей в фиксированной области.
  • Попробуйте применить математическую морфологию эрозия несколько раз (и / или использовать разные маски) и вычислить эту дробь
  • Вычислить среднюю компактность символа: периметр ^ 2 / площадь
  • После применения эрозии подсчитать количество связанных компонентов для символа
  • Вычислить удлинение и другие моменты изображения , а также направление
  • и т. Д.

Я вижу здесь два варианта: либо рассчитать средние характеристики для всехсимволов или сначала попытайтесь классифицировать буквы, а затем классифицировать шрифт на основе некоторых конкретных букв (поэтому вы обучаете другой классификатор для другой буквы).Трудно сказать, какой из них лучше в вашем случае.

Что касается конкретного алгоритма обучения, Random Forest , кажется, хорошее место для начала.В библиотеке OpenCV есть реализация.

...