В моем текущем проекте используются отсканированные документы R для распознавания клиентов.Из-за проблем с конфиденциальностью я не могу поделиться отсканированным документом здесь.
Текущий сценарий:
Отсканированные документы успешно распознаются с помощью R tessearct и пакета pdftools.Отсканированные документы могут содержать рукописные заметки, которые также успешно получают OCR с использованием пакета R tessearct и pdftools
Наша проблема
Нам нужен способ определить любой из них перед процессом распознаванияили после процесса распознавания, чтобы определить, какие символы были написаны от руки, чтобы подтолкнуть некоторые бизнес-правила
Попытка
Попытка поиска распознавания стиля шрифта, который установитРазница между печатными и рукописными символами, но не знаю, как реализовать использование пакета tesseract в R
. Любая помощь по этому вопросу будет принята с благодарностью.