Я использую pdfminer, и это отличная библиотека, особенно если вы знакомы с программированием на python.Он читает PDF и извлекает каждый символ, а также предоставляет ограничивающую рамку в виде кортежа (x0, y0, x1, y1).Pdfminer извлечет прямоугольники, линии и некоторые изображения и попытается обнаружить слова.У него есть неприятная процедура O (N ^ 3), которая анализирует ограничивающие блоки, чтобы объединить их, поэтому в некоторых файлах она может работать очень медленно.Попробуйте конвертировать ваш типичный файл - возможно, это будет быстро для вас, или, может быть, это займет 1 час, в зависимости от файла.
Вы можете легко вывести pdf в виде текста, это первоеВы должны попробовать для вашего приложения.Вы также можете сбросить XML (см. Ниже), но вы не можете изменить PDF.XML является наиболее полным представлением PDF-файла, из которого вы можете извлечь его.
Вы должны прочитать примеры, чтобы использовать его в своем коде Python, в нем мало документации.
Пример, который поставляется с PdfMiner, который преобразует PDF в xml, показывает, как лучше всего использовать lib в вашем коде.Он также показывает вам, что извлечено в удобочитаемой (как XML) форме.
Вы можете вызывать это с параметрами, которые говорят ему «анализировать» PDF.Если вы это сделаете, он объединит буквы в блоки текста (слова и предложения; предложения будут иметь пробелы, так что их легко разбить на слова в python).