В настоящее время я пишу сценарий python, который может извлечь весь текст в файл xml. Я использую библиотеку Элементного Дерева для интерпретации данных, но сталкиваюсь с этой проблемой, однако, когда данные структурированы следующим образом ...
<Segment StartTime="639.752" EndTime="642.270" Participant="fe016">
But I bet it's a good <Pause/> superset of it.
</Segment>
Когда я пытаюсь прочитать текст, я получаю Первая половина сегмента («Хорошо. Так что у нас было») перед тегом паузы.
Я пытаюсь выяснить, есть ли способ игнорировать теги в сегментах данных и распечатать весь текст.