Я пытаюсь преобразовать PDF в текстовые файлы (расшифровка текстов). Некоторые из PDF-файлов, с которыми я работаю, в основном текстовые (с которыми легко работать), но некоторые основаны на изображениях. У меня есть код для работы с файлами JPEG / PNG, но не с файлами PDF, поэтому я пытаюсь проверить, основан ли файл PDF на изображениях, чтобы я мог преобразовать его в файл JPEG / PNG. Есть ли у кого-нибудь рекомендации?
По сути, я использую pytesseract, и я не мог найти способ работы с файлами PDF
Был бы признателен за любой вклад от кого-то, кто знает, как работать с необработанными данными PDF