Я пишу на Python, используя pytesseract
или прямые Popen
звонки, если необходимо.
Я пытаюсь распознать документ с нерегулярной структурой, письмо выглядит так: Проблема в файле .hocr
, сгенерированном Tesseract. Я получаю строки, состоящие из левого и правого столбцов, склеенных друг с другом, как "Получатель: Отправитель:"
Чего я хотел бы добиться, так это вывода слеваи правая колонка отделена.Использование сторонних утилит Python для предварительной обработки изображения является приемлемым решением, если объяснить его достаточно подробно.Сценарий должен быть автономным и каким-то образом обнаруживать эту проблему, поскольку не все буквы имеют такое странное форматирование.
Попытка / идеи:
Использование --psm 1
для разрешения определения формата ввода - без улучшений по умолчаниювероятно, потому что структура слишком сложная.
Настройка некоторых параметров файла конфигурации, таких как gapmap_use_ends
и textord_words_maxspace
- я не смог найти хорошую документацию по этим вопросам и, вероятно, существует правильная комбинация значений, но есть57 вариантов с "пробелом" в имени ... любая информация по ним будет очень полезна.
Редактирование .hocr
- не уверен, как написать соответствующие правила группировки для блоков слов, которые не мешают нормальномувезде текст ...