Извлечение заголовков и подзаголовков из парсинга PDF с Python 3 - PullRequest
1 голос
/ 25 сентября 2019

Я пытаюсь разобрать pdf в html, а затем я хотел бы извлечь заголовки и подзаголовки из тегов.Документ в формате PDF был сгенерирован Microsoft Word, поэтому я уверен, что должен быть способ получить эти заголовки.

До сих пор я пытался выполнить синтаксический анализ с Apache Tika и PDFMiner.six, но до сих пор в html-файле нет таких тегов, которые я мог бы использовать для извлечения заголовков и подзаголовков документа.

Интересно, есть ли способ сделать это, был бы признателен за любую помощь.Спасибо

1 Ответ

2 голосов
/ 25 сентября 2019

Я предлагаю вам использовать GROBID - библиотеку машинного обучения для извлечения, анализа и реструктуризации необработанных документов, таких как PDF, в структурированные документы в формате XML / TEI с особым акцентом на технические и научные публикации.

Простой клиент Python для сервисов GROBID REST доступен по адресу https://github.com/kermitt2/grobid-client-python

Этот клиент Python может использоваться для обработки набора PDF-файлов в заданном каталоге службой GROBID.Результаты записываются в заданный выходной каталог и включают результирующее XML-представление TEI в формате PDF.

Надеюсь, это поможет.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...