лучший способ экспортировать данные из PDF-файлов - PullRequest
0 голосов
/ 08 марта 2010

Привет, я работаю над газетой, и мы ищем способ сделать архивные материалы доступными. Наши страницы представлены в формате pdf, поэтому нам нужен способ экспорта текста и изображений из pdf, чтобы их можно было добавить в базу данных. Мы взглянули на плагин News studio для Adobe Acrobat от Iceni Technology, но нам просто интересно, кто-нибудь еще знает другие варианты экспорта данных в формате PDF. спасибо

Ответы [ 2 ]

0 голосов
/ 08 марта 2010

Если ваши PDF-файлы уже содержат текст, тогда ваша работа будет намного проще: такие инструменты, как pdftotext и pdftohtml, предоставят вам вывод изображения и текста (см. Пакет Ubuntu xpdf-utils).

С другой стороны, если текст в вашем pdf-файле основан на изображениях, вам придется посмотреть на параметры распознавания текста. К счастью, есть несколько хороших предложений с открытым исходным кодом. У меня был некоторый успех с использованием комбинации ImageMagick и Тессеракт :

  1. Во-первых, конвертируйте PDF-файлы в TIFF с помощью ImageMagick (Tesseract не будет распознавать PDF-файлы)
  2. OCR the TIFF с использованием Tesseract (вы также можете попробовать gocr , также доступный в репозиториях Ubuntu)

Ключ был в том, чтобы TIFF были достаточно высокого качества. Эти настройки ImageMagick хорошо сработали для меня:

convert -depth 8 -density 500 -colorspace GRAY -resize 1600 input.pdf output.tif

Если вам также нужно извлечь метаданные из PDF-файла (заголовок, местоположение, тема, автор и т. Д.), Тогда pdftk - полезный инструмент.

0 голосов
/ 08 марта 2010

Существует pdftotext (часть xpdf ). Он будет извлекать текст из файлов PDF (если он хранится в виде текста в PDF, а не в виде изображения). Возможно, вы могли бы использовать это.

Однако имейте в виду, что любое решение для извлечения текста из PDF будет ограничено, поскольку PDF-файлы действительно предназначены только для отображения. По крайней мере, у вас не будет метаданных, таких как дата статьи, автор и т. Д .; также, если часть текста находится в изображении, вы можете потерять это.

Лучшим подходом, вероятно, является извлечение необработанных данных из системы, которая генерирует PDF-файлы, и их архивирование в подходящем формате. Может быть, больше работы, но лучшие результаты.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...