Question

У меня огромное количество электронных книг в формате odt. Мне нужно извлечь каждую главу как новый текстовый файл. Все электронные книги имеют фиксированную структуру, где каждый заголовок является заголовком главы. Я хочу получить только текст для каждой главы. Я пытаюсь использовать odfpy, но не представляется возможным вызвать подэлементы каждого заголовка.

Немного покопавшись в документации и других обсуждениях, которые я видел, можно провести l oop через все элементы данного типа, как в примере ниже:

for paragraph in doc.getElementsByType(text.P):
    print paragraph.getAttribute('stylename')

#source: https://github.com/eea/odfpy/wiki/OpenDocumentClasses

Можно ли l oop просмотреть все подэлементы заголовка и извлечь текст всех абзацев, используя odfpy?

Получить все параграфы / текст между двумя заголовками из файла odt, используя odfpy - извлечение главы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Получить все параграфы / текст между двумя заголовками из файла odt, используя odfpy - извлечение главы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы