У меня огромное количество электронных книг в формате odt. Мне нужно извлечь каждую главу как новый текстовый файл. Все электронные книги имеют фиксированную структуру, где каждый заголовок является заголовком главы. Я хочу получить только текст для каждой главы. Я пытаюсь использовать odfpy, но не представляется возможным вызвать подэлементы каждого заголовка.
Немного покопавшись в документации и других обсуждениях, которые я видел, можно провести l oop через все элементы данного типа, как в примере ниже:
for paragraph in doc.getElementsByType(text.P):
print paragraph.getAttribute('stylename')
#source: https://github.com/eea/odfpy/wiki/OpenDocumentClasses
Можно ли l oop просмотреть все подэлементы заголовка и извлечь текст всех абзацев, используя odfpy?