Как мы можем обучить тессеракт (версия 4.1) дополнительным специальным символам (например, символу деления «÷») - PullRequest
0 голосов
/ 17 марта 2020

Я пытаюсь обучить тессеракт распознаванию дополнительных специальных символов (например, символа деления «÷»). [Я не пытаюсь обучить его новому шрифту, просто некоторые дополнительные символы]. Я использую Tesseract версии 4.1 с Unity3D. В настоящее время tesseract распознает символ деления («÷») как дополнительный символ («+»). Я хочу использовать оба эти символа вместе. Но я не могу найти способ научить тессеракт распознавать его. У меня уже есть файл eng.traineddata, который работает отлично. Было бы здорово, если бы этот файл можно было как-то изменить, чтобы добавить поддержку символа деления.

[Не уверен, имеет ли это значение или нет, но в tesseract версии 4.x белый список не поддерживается. Кроме того, файл требуемых символов в LangData не имеет символа «÷» https://github.com/tesseract-ocr/langdata_lstm/tree/master/eng]

  • Если невозможно расширить файл обученных данных для дополнительных символов, можно ли добиться поддержки символа деления с помощью обучения новому подходу к шрифту?

Любые предложения приветствуются:)

Спасибо

...