Как математик-исследователь, я считаю полезным иногда читать только основные результаты математической работы.Для человека это обычно очень легко сделать: просто откройте файл PDF или PS и найдите теоремы в первом разделе.Поскольку такой процесс довольно прост, я предполагаю, что его можно автоматизировать.
Чтобы программа могла решить эту проблему, мы можем позволить ей сделать это в несколько шагов:
- Получитьи текст, и стиль из первого раздела
- Ищите жирные абзацы как строки с начальной подстрокой "Теорема"
- Соберите такие абзацы
2 и 3легко достичь.С другой стороны, 1 может быть сложнее.В математических работах по arXiv, если мы игнорируем действительно старые документы, которые могли быть отсканированными изображениями, мы в основном имеем следующие три формата: Tex, PS и PDF.В Tex шаге 1 очень просто.Однако для PDF-файлов, включая PDF-файлы, сгенерированные Tex, это то, о чем я действительно понятия не имею.
Как автоматизировать шаг 1?