Как вывести R-пакет Тессеракта в UFT-8? - PullRequest
0 голосов
/ 21 апреля 2020

Я использую пакет Tesseract в R для выполнения OCR контракта. Это работает хорошо, с небольшой проблемой: язык контракта - португальский, и символы неправильно закодированы.

Это мой код:

ficheiro2 <- pdf_convert('contrato.pdf', dpi = 600)
output2 <- ocr_data(ficheiro2, engine = pt)

Я не могу узнать, как чтобы выводить текст в формате UTF-8, должен быть какой-то параметр, но какой именно?

...