Предполагая, что все эти документы принадлежат arXiv, вы могли бы вместо этого извлечь идентификатор arXiv (я бы предположил, что поиск «arXiv:» в тексте PDF будет последовательно показывать идентификатор как первое попадание).
Как только у вас есть ссылочный номер arXiv (и вы сделали pip install arxiv
), вы можете получить заголовок, используя
paper_ref = '1501.00730'
arxiv.query(id_list=[paper_ref])[0].title