Я пытаюсь обучить тессеракт распознаванию дополнительных специальных символов (например, символа деления «÷»). [Я не пытаюсь обучить его новому шрифту, просто некоторые дополнительные символы]. Я использую Tesseract версии 4.1 с Unity3D. В настоящее время tesseract распознает символ деления («÷») как дополнительный символ («+»). Я хочу использовать оба эти символа вместе. Но я не могу найти способ научить тессеракт распознавать его. У меня уже есть файл eng.traineddata, который работает отлично. Было бы здорово, если бы этот файл можно было как-то изменить, чтобы добавить поддержку символа деления.
[Не уверен, имеет ли это значение или нет, но в tesseract версии 4.x белый список не поддерживается. Кроме того, файл требуемых символов в LangData не имеет символа «÷» https://github.com/tesseract-ocr/langdata_lstm/tree/master/eng]
- Если невозможно расширить файл обученных данных для дополнительных символов, можно ли добиться поддержки символа деления с помощью обучения новому подходу к шрифту?
Любые предложения приветствуются:)
Спасибо