Тессеракт путает два числа - PullRequest
18 голосов
/ 03 сентября 2011

Я пишу приложение для сканирования чисел с изображения.

Числа используют шрифт OCR-B и могут также содержать + и > символов.

Это мое исходное изображение:

source image

Сканирование с использованием Тессеракта было не очень хорошим, даже при ограничении набора символов упомянутыми символами.Поскольку я не нашел никаких обучающих файлов OCRB для Tesseract, я решил обучить его сам.

Я создал этот обучающий образ и сделал из него файл коробки.Файл коробки правильный, все буквы совпадают.

Затем я выполнил все шаги , описанные здесь , чтобы создать другие необходимые файлы.

Используя этот недавно обученный OCR-B-tessdata-set, я получаю довольно хорошие результаты на исходном изображении, с одной маленькой ошибкой: все 1 с ошибочно принимаются за 8 с и наоборот.Команда, использованная для обработки изображения, была

$ tesseract esr2c.tif ocrb-esr2c -l ocrb

, а исходное изображение было

0800000001456> 8 00000195731208 8 01050008 023+ 08 0301226> 20

Если вы поменяете местами все 1 s и 8 s и сравните их с исходным изображением, вывод будет правильным (за исключением двух последних букв, которые я могу игнорировать).

Как такое могло произойти?Я сделал какую-то ошибку в тренировочном процессе?Как я могу это исправить?

Ответы [ 2 ]

6 голосов
/ 03 сентября 2011

Вероятно, что где-то в вашем файле ящика есть неправильные значения (символы) для 1 и 8. Вы можете проверить это с помощью программы jTessBoxEditor . Если это так, исправьте, заново создайте файл языковых данных и повторите попытку.

2 голосов
/ 20 декабря 2011

Я обучил tesseract 2.04 после 1 месяца работы над OCR. Расширенный шрифт. Работает очень хорошо и показывает точность выше 90 с размером шрифта 14.

Тренировочное изображение должно быть высоко контрастным. Используйте редактор изображений «GIMP» и выполните следующие действия Цвета меню-> Информация-> Гистограмма- Считать значение стандартного отклонения colors-> Threshould -> Записать значение Std Deviation в качестве значения Threshould Сохранить изображение Используйте его для обучения.

Проверьте и отредактируйте свой файл коробки, используя "qt-box-editor-1.06.exe". Он очень прост в использовании. Отметьте все поля и символы в нем. Это очень важно. Где-то в вашем коробочном файле есть неправильные символы для 1 и 8.

Запустить другие команды.

...