Обучение Tesseract по конкретным шрифтам приводит к пустым файлам tr - PullRequest
0 голосов
/ 06 марта 2019

Я работаю над проектом колледжа, который включает в себя распознавание определенного цифрового кода (с несколькими другими символами в качестве разделителей - в основном, «.», «/» И т. Д.). этот цифровой код (напечатанный, например, на товарах) обычно имеет «цифровые» шрифты (например, 7-сегментный шрифт или пиксельный шрифт и т. д.).

Поэтому я пытаюсь обучить Tesseract нескольким цифровым шрифтам, которые я нашел в Интернете, аналогично тем, которые используются с этим кодом.

Дело в том, что Tesseract распознает файлы TIFF, которые я предоставляю, как пустые страницы.

Вещи, которые я пробовал: 1. Создание .box файла с использованием JTesseract & qt-box (и настройка блоков вручную): в этом случае Tesseract читает box & tiff, и я получаю вывод «1 Page», но символы не распознаются и файл tr пустым.

  1. создание файла .box с makebox от Tesseract - в этом случае ящики вообще не создаются.

PS - мне удается тренировать его, используя более традиционные шрифты (например, Arial) Есть идеи? Я прилагаю изображение такого примера шрифта. digitized font

Спасибо!

1 Ответ

0 голосов
/ 11 марта 2019

Мне удалось обойти большинство проблем.Отправка сообщения на случай, если это может помочь кому-либо еще: я сделал 2 шага, чтобы Tesseract идентифицировал мой текст:

  1. Обработка изображений на тренировочных изображениях - я применил некоторые методы обработки изображений (в основном расширяются, размываются и немного размываются), чтобы «соединить» пиксели в тексте, которые были сегментированы или отделены друг от друга.ОЧЕНЬ ВАЖНО применять те же самые шаги точно к изображениям, которые будут поданы на OCR.

  2. Я заметил, что простое сохранение изображений в формате TIFF / PNG с помощью кода по какой-то причине не сохраняет настройку DPI в заголовке (а Тессеракт определил 0 DPI).Я предполагаю, что есть кодовый способ сделать это, но у меня не было времени, поэтому я просто открыл файлы в Photoshop и сохранил их оттуда.

Я не совсем уверенесли это был шаг 1,2 или оба, это решило мою проблему, но большинство персонажей были в конечном итоге идентифицированы.

...