EmguCV OCR Tesseract разных цветов и размеров - глубокое обучение в C# - PullRequest
1 голос
/ 28 марта 2020

Я нашел пример распознавания номерных знаков в C#:

http://www.emgu.com/wiki/index.php/License_Plate_Recognition_in_CSharp#License_Plate_Recognition

Пример с EmguCV и Tesseract. Пример работает, но в коде я назначил VectorOfVectorOfPoint:

CvInvoke.CvtColor(img, gray, ColorConversion.Bgr2Gray);
CvInvoke.Canny(gray, canny, 100, 50, 3, false);

Но я хочу сделать OCR для текста в цветной газете, где есть много изображений с разными цветами и буквами с разными размерами. Я не знаю этих цветов и размеров шрифтов и точек x, y. Могу ли я научить OCR распознавать эти буквы и тексты? Как это сделать динамически?

1 Ответ

0 голосов
/ 29 марта 2020

Из моего прошлого опыта данный пример распознавания номерных знаков Emgucv устарел и не самый лучший. Используете ли вы стандартные файлы tessdata из репозитория Tesseract Github? В репозитории существует множество разных файлов tessdata для разных языков, и они весьма полезны при обнаружении текста во всех видах шрифтов и цветов. Однако, если вы хотите дополнительно обучить свои данные, попробуйте этот учебник здесь. https://pretius.com/how-to-prepare-training-files-for-tesseract-ocr-and-improve-characters-recognition/

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...