Предельный размер пространства в Тессеракте - PullRequest
0 голосов
/ 29 сентября 2018

Я пишу на Python, используя pytesseract или прямые Popen звонки, если необходимо.

Я пытаюсь распознать документ с нерегулярной структурой, письмо выглядит так: enter image description here Проблема в файле .hocr, сгенерированном Tesseract. Я получаю строки, состоящие из левого и правого столбцов, склеенных друг с другом, как "Получатель: Отправитель:"

Чего я хотел бы добиться, так это вывода слеваи правая колонка отделена.Использование сторонних утилит Python для предварительной обработки изображения является приемлемым решением, если объяснить его достаточно подробно.Сценарий должен быть автономным и каким-то образом обнаруживать эту проблему, поскольку не все буквы имеют такое странное форматирование.

Попытка / идеи:

Использование --psm 1 для разрешения определения формата ввода - без улучшений по умолчаниювероятно, потому что структура слишком сложная.

Настройка некоторых параметров файла конфигурации, таких как gapmap_use_ends и textord_words_maxspace - я не смог найти хорошую документацию по этим вопросам и, вероятно, существует правильная комбинация значений, но есть57 вариантов с "пробелом" в имени ... любая информация по ним будет очень полезна.

Редактирование .hocr - не уверен, как написать соответствующие правила группировки для блоков слов, которые не мешают нормальномувезде текст ...

...