Question

Я пытаюсь разобрать pdf в html, а затем я хотел бы извлечь заголовки и подзаголовки из тегов.Документ в формате PDF был сгенерирован Microsoft Word, поэтому я уверен, что должен быть способ получить эти заголовки.

До сих пор я пытался выполнить синтаксический анализ с Apache Tika и PDFMiner.six, но до сих пор в html-файле нет таких тегов, которые я мог бы использовать для извлечения заголовков и подзаголовков документа.

Интересно, есть ли способ сделать это, был бы признателен за любую помощь.Спасибо

Aswathy - Intel · Answer 1 · 25 сентября 2019

Я предлагаю вам использовать GROBID - библиотеку машинного обучения для извлечения, анализа и реструктуризации необработанных документов, таких как PDF, в структурированные документы в формате XML / TEI с особым акцентом на технические и научные публикации.

Простой клиент Python для сервисов GROBID REST доступен по адресу https://github.com/kermitt2/grobid-client-python

Этот клиент Python может использоваться для обработки набора PDF-файлов в заданном каталоге службой GROBID.Результаты записываются в заданный выходной каталог и включают результирующее XML-представление TEI в формате PDF.

Надеюсь, это поможет.

Извлечение заголовков и подзаголовков из парсинга PDF с Python 3

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Извлечение заголовков и подзаголовков из парсинга PDF с Python 3

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов