Итак, в моем состоянии была выпущена куча данных в виде PDF, но, что еще хуже, большинство (все?) Файлов PDF выглядят как буквы, набранные в Office, напечатанные / отправленные по факсу, а затем отсканированные (наш правительство в лучшем виде а?). Сначала я думал, что я сумасшедший, но потом я начал видеть множество PDF-файлов, которые «наклонены», как будто кто-то не получил их на сканере должным образом. Итак, я решил, что следующая лучшая вещь для получения реального текста из них, это превратить каждую страницу в изображение.
Очевидно, что это нужно автоматизировать, и я бы предпочел придерживаться Python, если это возможно. Если у Ruby или Perl есть какая-то форма реализации, которую просто невозможно обойти стороной, я могу пойти по этому пути. Я пробовал pyPDF для извлечения текста, что, очевидно, не принесло мне много пользы. Я пробовал swftools, но изображения, которые я получаю, просто не пригодны для использования. Просто кажется, что шрифты разрушаются при конвертации. Я также даже не забочусь о формате изображения на выходе, лишь бы они были относительно легкими и удобочитаемыми.