Преобразование PDF в текст возвращает странные escape-предложения - PullRequest
0 голосов
/ 21 марта 2020

Я пытаюсь извлечь текст из PDF в текст. PDF-файл содержит текст на чешском языке, который включает в себя такие символы, как ščřžý ... Я пробовал многочисленные подходы, включая Tika, Textract, Texttopdf, Calibre, PDFMiner и так далее. Тем не менее, я получаю много неопределенных символов, и некоторые символы неправильно декодируются. Я также пытался кодировать и декодировать текст с помощью различных кодеков, но мне не повезло. Не могли бы вы предложить возможные решения этой проблемы? До сих пор OCR работал лучше, но ошибки o (буква) для 0 (ноль) и некоторые буквы пишутся с большой буквы.

...