ocr и методы предварительной обработки изображений - PullRequest
5 голосов
/ 15 ноября 2010

Привет всем, у меня есть коллекция изображений, которые похожи на фотографии автомобильных регистрационных знаков.

Мне интересно, как предварительно обработать изображение, прежде чем отправить его в механизм распознавания текста для определения текста.

Я бы хотел в конечном итоге обрезать ввод только по белому содержимому номерного знака.

Фактическое изображение будет выглядеть примерно так:

input

и должно получиться что-то вроде этого (глубина цвета не важна) ouput

Спасибо за любую помощь. С Уважением, Боб

1 Ответ

6 голосов
/ 15 ноября 2010
  • Сегментируйте изображение (посмотрите на this ).

  • Классифицируйте сегменты, используя порог серой шкалы (поскольку вы просто ищете белый).

  • Обрежьте изображение, используя ограничивающий прямоугольник белого сегмента (или ограничивающие прямоугольники, если он разбивается более чем на один сегмент). Вероятно, это не сработает для белых автомобилей - но не должно быть слишком сложно установить несколько правил для этого случая.

  • Взгляните на tesseract-ocr , чтобы извлечь текст.

...