Я работаю над проектом колледжа, который включает в себя распознавание определенного цифрового кода (с несколькими другими символами в качестве разделителей - в основном, «.», «/» И т. Д.).
этот цифровой код (напечатанный, например, на товарах) обычно имеет «цифровые» шрифты (например, 7-сегментный шрифт или пиксельный шрифт и т. д.).
Поэтому я пытаюсь обучить Tesseract нескольким цифровым шрифтам, которые я нашел в Интернете, аналогично тем, которые используются с этим кодом.
Дело в том, что Tesseract распознает файлы TIFF, которые я предоставляю, как пустые страницы.
Вещи, которые я пробовал:
1. Создание .box файла с использованием JTesseract & qt-box (и настройка блоков вручную): в этом случае Tesseract читает box & tiff, и я получаю вывод «1 Page», но символы не распознаются и файл tr пустым.
- создание файла .box с makebox от Tesseract - в этом случае ящики вообще не создаются.
PS - мне удается тренировать его, используя более традиционные шрифты (например, Arial)
Есть идеи?
Я прилагаю изображение такого примера шрифта.
Спасибо!