Чтение чисел, разделенных пробелами, как одной строки в pytesseract - PullRequest
0 голосов
/ 07 мая 2020

В настоящее время я работаю над проектом по удалению номеров кредитных карт / телефонов из изображений с помощью OCR. Сначала я извлекаю текст из заданного изображения, используя pytesseract, а затем использую регулярное выражение поверх него, чтобы получить числа CC. pytesseract достаточно хорошо работает в случаях, когда номера кредитных карт / телефонов либо смежны (aaaabbbbccccd ddd), либо содержат разделитель без пробела (aaaa-bbbb- cccc -d ddd). Но когда разделителем является пробел (aaaa bbbb cccc d ddd), pytesseract считывает числа как разные фрагменты. Я играл с флагами конфигурации psm и oem, но результаты в значительной степени был неудовлетворительным.

Как я могу доработать, чтобы pytesseract считал номера CC / телефонов, разделенные пробелами, как одну строку?

версия pytesseract: 0.3.3 версия tesseract: 4.0.0 beta

...