Получить все параграфы / текст между двумя заголовками из файла odt, используя odfpy - извлечение главы - PullRequest
1 голос
/ 21 апреля 2020

У меня огромное количество электронных книг в формате odt. Мне нужно извлечь каждую главу как новый текстовый файл. Все электронные книги имеют фиксированную структуру, где каждый заголовок является заголовком главы. Я хочу получить только текст для каждой главы. Я пытаюсь использовать odfpy, но не представляется возможным вызвать подэлементы каждого заголовка.

Немного покопавшись в документации и других обсуждениях, которые я видел, можно провести l oop через все элементы данного типа, как в примере ниже:

for paragraph in doc.getElementsByType(text.P):
    print paragraph.getAttribute('stylename')

#source: https://github.com/eea/odfpy/wiki/OpenDocumentClasses

Можно ли l oop просмотреть все подэлементы заголовка и извлечь текст всех абзацев, используя odfpy?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...