* * * * * * * * * * * * * * * * * * * * * * По этой теме на форуме Google есть ссылка. Первый ответ заключает, что это, вероятно, невозможно.
Насколько я знаю, это правильно, если вы используете файлы языковых данных, которые поставляются с Tesseract. Однако вы можете очень легко ограничить количество выводимых символов, если вы тренируетесь на своих собственных файлах с ящиками . Это практически автоматически: если unicharset_extractor
не найдет символы не ASCII в файлах блоков, вы никогда не увидите символы не ASCII в выводе.
Я был также разочарован всеми взаимодействиями и другими необычными символами в моем выводе, когда я впервые начал использовать Tesseract, и обучение на моих собственных файлах коробок решило проблему. Вы даже можете использовать Tesseract данные обучения в качестве отправной точки.