Вы можете попробовать сегментацию изображения, используя цвет. Если цвет пикселя находится в области RGB, близкой к (0, 0, 0), то этот пиксель, скорее всего, является кандидатом на участие в соответствующем черном тексте.
Другой подход заключается в проверке компонент Chrominance каждого пикселя. Предполагается, что черный текст имеет более низкий уровень цветности, и что это релевантный фрагмент изображения.
Идея состоит в том, чтобы определить части изображения, где присутствуют вероятные кандидаты в соответствующий текст, а затем просто выделить белый цвет. что не имеет отношения.
Тем не менее, это быстрые и грязные решения, и они испытывают трудности, когда ID-карты фотографируются в различных условиях освещения, или если они повреждены, или если устройства, используемые для захвата фотографий, имеют широкий диапазон камер. или если есть небольшие различия в типах удостоверений личности. Мы много работали над этой проблемой, особенно над документами, удостоверяющими личность. В конце концов, мы решили использовать машинное обучение на большом количестве сгенерированных изображений и обучить модели ML возвращать только соответствующий текст с удостоверений личности. Это потребовало огромного количества работы, но оно окупилось, поскольку теперь у нас очень надежное извлечение данных, и оно включает в себя идентификаторы из Вьетнама.
Отказ от ответственности: я работаю в Microblink , где мы разрабатываем коммерческие продукты для оптического распознавания текста, один из которых предназначен для сканирования удостоверений личности.