Извлечение фактического заголовка из текста из PDF - PullRequest
1 голос
/ 18 июля 2011

Кажется, есть много вопросов по извлечению заголовка из PDF (используя его метаданные). Однако подавляющее большинство названий, по-видимому, не существует в метаданных. Я выяснил это при использовании http://pybrary.net/pyPdf/pythondoc-pyPdf.pdf.html.

Есть ли способ получить заголовок текста из PDF-файла? Я пытался экспортировать в текстовый файл, а затем искать, но нет последовательного форматирования. Есть ли способ экспортировать PDF в документ с его форматированием, а затем проверить размер шрифта> = 14?

1 Ответ

0 голосов
/ 04 августа 2011

Это очень хороший вопрос. Приложения, которые создают PDF-файлы, похоже, не делают ничего полезного с доступными полями метаданных.

Взять в качестве примера pdflatex : даже если в преамбуле указаны \ title {...} и \ author {...} эта информация не отражена в метаданных. После быстрого поиска решение, по-видимому, заключается в том, чтобы ввести в преамбулу блок, доступный только для чтения pdflatex [1]:

\pdfinfo
{
  /Title{...}
  /Author{...}
  ...
}

... который затем помещается в соответствующие поля метаданных PDF. Странно, однако, что это необходимо.

Я не могу говорить за текстовые процессоры, такие как Word или Writer. Предполагается, что такие поля метаданных должны быть установлены пользователем вручную.

Возможно, эвристический подход - единственный способ решить проблему, если ваши PDF-файлы не созданы вами. [2] кажется, что он делает что-то похожее на то, что вы хотите, но я думаю, это зависит от того, насколько хорошо опубликованы PDF-файлы - этот инструмент, похоже, ориентирован на научные статьи.

Надеюсь, это хоть какая-то помощь.

[1] http://wlug.org.nz/PdfLatexNotes [2] http://www.molspaces.com/d_cb2bib-metadata.php

...