Проверка компонентов PDF [сырые данные?] (Желательно через Python) - PullRequest
0 голосов
/ 30 мая 2020

Я пытаюсь преобразовать PDF в текстовые файлы (расшифровка текстов). Некоторые из PDF-файлов, с которыми я работаю, в основном текстовые (с которыми легко работать), но некоторые основаны на изображениях. У меня есть код для работы с файлами JPEG / PNG, но не с файлами PDF, поэтому я пытаюсь проверить, основан ли файл PDF на изображениях, чтобы я мог преобразовать его в файл JPEG / PNG. Есть ли у кого-нибудь рекомендации?

По сути, я использую pytesseract, и я не мог найти способ работы с файлами PDF

Был бы признателен за любой вклад от кого-то, кто знает, как работать с необработанными данными PDF

...