Методы предварительной обработки для оптического распознавания символов на низкокачественных цифровых изображениях? - PullRequest
0 голосов
/ 10 октября 2018

В настоящее время я работаю над проектом, который будет считывать изображение из сетки Судоку, определять сетку, определять цифры, решать головоломки и накладывать решение на изображение.Чтобы идентифицировать цифры, я разделил сетку на n * 2 изображения, где каждое изображение представляет собой отдельную сетку (примеры: ex2 ex9 ), и запустил их в pytesseract,Однако ни на одном из моих изображений не обнаружен какой-либо текст, хотя это просто изображение с номером без шума / границ / и т. Д.

Я пробовал распространенные методы сглаживания изображения, различные порогиметоды, изменение размера изображения, инвертирование изображения и обрезка цифры в ограничивающую рамку, но ни один из них, похоже, не работает.Я протестировал код, который я написал для pytesseract на других изображениях, и все они, кажется, работают нормально, только для моих изображений они не работают.или почему мои изображения, похоже, не так легко обрабатываются?

Для справки, вот настройка для pytesseract's image_to_string, которую я использовал:

text = image_to_string(im, config='--psm 10 --oem 3' + '-c tessedit_char_whitelist=123456789')
...