Я пытаюсь разобрать pdf в html, а затем я хотел бы извлечь заголовки и подзаголовки из тегов.Документ в формате PDF был сгенерирован Microsoft Word, поэтому я уверен, что должен быть способ получить эти заголовки.
До сих пор я пытался выполнить синтаксический анализ с Apache Tika и PDFMiner.six, но до сих пор в html-файле нет таких тегов, которые я мог бы использовать для извлечения заголовков и подзаголовков документа.
Интересно, есть ли способ сделать это, был бы признателен за любую помощь.Спасибо