Чтение текстовой + графической (как строки) информации из существующего PDF - PullRequest
1 голос
/ 08 марта 2011

Я хочу прочитать существующий PDF-файл и извлечь текстовую и графическую информацию.В графике в настоящее время мне просто нужны нарисованные линии.Есть много компонентов поставщика для чтения текста в формате PDF, но есть ли такие, которые также могут предоставить графическую информацию?Хотя бесплатный / открытый исходный код предпочтительнее, я тоже в порядке с коммерческими.

Требование:

Для каждой страницы в PDF:

  1. Чтение текстовых блоков

  2. Знакомство с координатами холста текстового блока (прямоугольник, содержащий блок).Обратите внимание, что для текста с более высоким размером шрифта размер прямоугольника изменится.

  3. Линии - требуется сбор (x1, y1, x2, y2) для каждой строки на странице в pdf

Спасибо, - Искатель

1 Ответ

0 голосов
/ 21 мая 2014

Это мое поле, хотя вопрос немного старый. Надеюсь, это все еще поможет.

Вы оставляете место для предположений, так что вот мое:

  • вы ищете сценарий, а не автономное программное обеспечение
  • ваш объект архивный

    1. вы запускаете сценарии командной строки: Используйте этот сценарий командной строки, подробное описание: http://stefaanlippens.net/extract-images-from-pdf-documents

    2. вы выполняете серверный код, используя функции imagemagick или graphicsmagick: Что-то вроде «convert -background white -flatten test1.pdf test1.jpg» (imagemagick) сделает всю страницу PDF в формате jpeg. Если вы хотите затем обрезать его до изображения (й), то это зависит от контекста проекта, чтобы определить лучший сценарий (ы) для этого.

Довольно сложный вопрос. Если вы хотите предоставить более подробную информацию о проекте, то я могу дать некоторые дополнительные рекомендации. Желаем удачи.

...