Question

Я хочу написать скрипт для автоматического переименования загруженных статей с их названиями, мне интересно, есть ли какая-нибудь библиотека или приемы, которые я могу использовать? Все PDF-файлы генерируются TeX и должны иметь некоторые «формальные» структуры.

schnaader · Answer 1 · 26 мая 2009

Вы можете попробовать использовать pyPdf и в этом примере .

например:

from pyPdf import PdfFileWriter, PdfFileReader

def get_pdf_title(pdf_file_path):
    with open(pdf_file_path) as f:
        pdf_reader = PdfFileReader(f) 
        return pdf_reader.getDocumentInfo().title

title = get_pdf_title('/home/user/Desktop/my.pdf')

moshen · Answer 2 · 26 мая 2009

Я бы, наверное, начал с Perl (видя, что это всегда первое, чего я достигну). Есть несколько модулей для работы с PDF . Если у вас есть последовательная структура, вы можете использовать регулярные выражения, чтобы поймать заголовки.

AndyP · Answer 3 · 24 января 2018

Предполагая, что все эти документы принадлежат arXiv, вы могли бы вместо этого извлечь идентификатор arXiv (я бы предположил, что поиск «arXiv:» в тексте PDF будет последовательно показывать идентификатор как первое попадание).

Как только у вас есть ссылочный номер arXiv (и вы сделали pip install arxiv), вы можете получить заголовок, используя

paper_ref = '1501.00730'
arxiv.query(id_list=[paper_ref])[0].title

Извлечение заголовков из файлов PDF?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Извлечение заголовков из файлов PDF?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов