Я использую пакет Tesseract в R для выполнения OCR контракта. Это работает хорошо, с небольшой проблемой: язык контракта - португальский, и символы неправильно закодированы.
Это мой код:
ficheiro2 <- pdf_convert('contrato.pdf', dpi = 600)
output2 <- ocr_data(ficheiro2, engine = pt)
Я не могу узнать, как чтобы выводить текст в формате UTF-8, должен быть какой-то параметр, но какой именно?