Различают I и l (верхний регистр i и нижний регистр L) в OCR - PullRequest
0 голосов
/ 05 апреля 2020

OCR, эксперты Computer Vision!

Используя внешнюю третью часть OCR для идентификации текста в скриншоте твита, я столкнулся с проблемой распознавания заглавных «i» I и маленьких «L» l. Пример: «DonaldTrump» и «DonaIdTrump» - это разные слова, попробуйте вставить его в блокнот

Я реализовал частичное решение, которое уменьшает вероятность ошибки, но я ищу постоянное. Решение, которое я применил, состоит в том, чтобы переключить I I с помощью L l (или наоборот) и снова найти этот твит. Если найдено, оно попадает в яблочко. (Работает для DonaldTrump и DonaIdTrump. Не подходит для слова IsIam ​​с двумя заглавными буквами «i»)

Во-вторых, я подготовил список наиболее распространенных слов, в которых может возникнуть эта проблема. OCR немедленно меняет это слово на правильное. (Работает для: lsIam сопоставлен с исламом)

Второе решение имеет слишком много времени и затрат на обработку. Также невозможно отобразить все такие словарные слова.

Пожалуйста, предложите какое-нибудь хорошее решение. Спасибо!

...