Сегментирование текста из изображений - PullRequest
0 голосов
/ 20 апреля 2020

Я хочу извлечь определенный тип текста из изображений удостоверений личности:

enter image description here enter image description here enter image description here enter image description here enter image description here

Как вы можете видеть, они имеют различные условия освещения и резкости. Конечная цель - распознать черные тексты. Если они хорошо разделены, мне удалось сделать это с Tesseract OCR (кстати, это язык V IE, на случай, если вы захотите попробовать это сами с Tesseract). Тем не менее, в приведенных выше примерах перекрываются черные тексты и синие тексты, что сбивает с толку Тессеракта. Поэтому моя текущая цель - аккуратно удалить их, не сильно искажая черные размытые пиксели, чтобы Tesseract все еще работал.

Каковы наиболее надежные способы сделать это? (Примеры кода в Python приветствуются, если это возможно.)

1 Ответ

0 голосов
/ 20 апреля 2020

Вы можете попробовать сегментацию изображения, используя цвет. Если цвет пикселя находится в области RGB, близкой к (0, 0, 0), то этот пиксель, скорее всего, является кандидатом на участие в соответствующем черном тексте.

Другой подход заключается в проверке компонент Chrominance каждого пикселя. Предполагается, что черный текст имеет более низкий уровень цветности, и что это релевантный фрагмент изображения.

Идея состоит в том, чтобы определить части изображения, где присутствуют вероятные кандидаты в соответствующий текст, а затем просто выделить белый цвет. что не имеет отношения.

Тем не менее, это быстрые и грязные решения, и они испытывают трудности, когда ID-карты фотографируются в различных условиях освещения, или если они повреждены, или если устройства, используемые для захвата фотографий, имеют широкий диапазон камер. или если есть небольшие различия в типах удостоверений личности. Мы много работали над этой проблемой, особенно над документами, удостоверяющими личность. В конце концов, мы решили использовать машинное обучение на большом количестве сгенерированных изображений и обучить модели ML возвращать только соответствующий текст с удостоверений личности. Это потребовало огромного количества работы, но оно окупилось, поскольку теперь у нас очень надежное извлечение данных, и оно включает в себя идентификаторы из Вьетнама.

Отказ от ответственности: я работаю в Microblink , где мы разрабатываем коммерческие продукты для оптического распознавания текста, один из которых предназначен для сканирования удостоверений личности.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...