В настоящее время я работаю над проектом по удалению номеров кредитных карт / телефонов из изображений с помощью OCR. Сначала я извлекаю текст из заданного изображения, используя pytesseract
, а затем использую регулярное выражение поверх него, чтобы получить числа CC. pytesseract
достаточно хорошо работает в случаях, когда номера кредитных карт / телефонов либо смежны (aaaabbbbccccd ddd), либо содержат разделитель без пробела (aaaa-bbbb- cccc -d ddd). Но когда разделителем является пробел (aaaa bbbb cccc d ddd), pytesseract
считывает числа как разные фрагменты. Я играл с флагами конфигурации psm
и oem
, но результаты в значительной степени был неудовлетворительным.
Как я могу доработать, чтобы pytesseract
считал номера CC / телефонов, разделенные пробелами, как одну строку?
версия pytesseract: 0.3.3 версия tesseract: 4.0.0 beta