Как получить информацию из PDF-файлов, созданных с помощью tex и ps? - PullRequest
0 голосов
/ 08 октября 2018

Как математик-исследователь, я считаю полезным иногда читать только основные результаты математической работы.Для человека это обычно очень легко сделать: просто откройте файл PDF или PS и найдите теоремы в первом разделе.Поскольку такой процесс довольно прост, я предполагаю, что его можно автоматизировать.

Чтобы программа могла решить эту проблему, мы можем позволить ей сделать это в несколько шагов:

  1. Получитьи текст, и стиль из первого раздела
  2. Ищите жирные абзацы как строки с начальной подстрокой "Теорема"
  3. Соберите такие абзацы

2 и 3легко достичь.С другой стороны, 1 может быть сложнее.В математических работах по arXiv, если мы игнорируем действительно старые документы, которые могли быть отсканированными изображениями, мы в основном имеем следующие три формата: Tex, PS и PDF.В Tex шаге 1 очень просто.Однако для PDF-файлов, включая PDF-файлы, сгенерированные Tex, это то, о чем я действительно понятия не имею.

Как автоматизировать шаг 1?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...