Одна из лучших вещей для извлечения текста из PDF-файлов - это TET, набор инструментов для извлечения текста . TET является частью семейства продуктов PDFlib.com.
PDFlib.com - компания Томаса Мерца (автор "Библии PostScript и PDF" ).
Первое воплощение TET - библиотека . Это, вероятно, может делать все, что вы хотите, в том числе с позиционной информацией о каждом элементе текста на странице. Да, и он также может извлекать изображения. Он рекомбинирует + объединяет изображения, которые фрагментированы на части.
pdflib.com также предлагает еще одно воплощение этой технологии, плагин TET для Acrobat . Очевидно, что вам понадобится и Acrobat, чтобы использовать это.
И третье воплощение - PDFlib TET iFilter . Это автономный инструмент для пользовательских рабочих станций. И то, и другое бесплатно (как в пиве) для использования в личных некоммерческих целях.
Наконец, TET также поставляется с интерфейсом командной строки .
TET действительно мощный. Намного лучше, чем собственное извлечение текста Adobe. Он извлек текст для меня, где другие инструменты (в том числе Adobe) выплескивают только мусор.
Несколько месяцев назад я протестировал их автономный настольный инструмент, и то, что они говорят на их веб-странице, правда. У него очень хорошая командная строка. Некоторые из моих «проблемных» тестовых файлов PDF с инструментом обработаны к моему полному удовлетворению.
Это моя рекомендация для всех сложных и сложных требований к извлечению текста в PDF.
TET просто потрясающий. Он обнаруживает таблицы. Внутри таблиц он идентифицирует ячейки, охватывающие несколько столбцов. Он определяет строки таблицы и содержимое каждой ячейки таблицы отдельно. Он очень хорошо справляется с переносами слов: он удаляет дефисы и восстанавливает полные слова. Он поддерживает языки не ASCII (включая CJK, арабский и иврит). При встрече с лигатурами восстанавливаются оригинальные символы ...
Попробуйте.