Разбор файла xml с тегом выделения в python - PullRequest
0 голосов
/ 10 апреля 2020

В настоящее время я пишу сценарий python, который может извлечь весь текст в файл xml. Я использую библиотеку Элементного Дерева для интерпретации данных, но сталкиваюсь с этой проблемой, однако, когда данные структурированы следующим образом ...

<Segment StartTime="639.752" EndTime="642.270" Participant="fe016">
  But I bet it's a good <Pause/> superset of it.
</Segment>

Когда я пытаюсь прочитать текст, я получаю Первая половина сегмента («Хорошо. Так что у нас было») перед тегом паузы.

Я пытаюсь выяснить, есть ли способ игнорировать теги в сегментах данных и распечатать весь текст.

1 Ответ

0 голосов
/ 23 апреля 2020

Другое решение.

from simplified_scrapy import SimplifiedDoc,req,utils
html = '''<Segment StartTime="639.752" EndTime="642.270" Participant="fe016">
  But I bet it's a good <Pause/> superset of it.
</Segment>'''
doc = SimplifiedDoc(html)
print(doc.Segment)
print(doc.Segment.text)

Результат:

{'StartTime': '639.752', 'EndTime': '642.270', 'Participant': 'fe016', 'tag': 'Segment', 'html': "\n  But I bet it's a good <Pause /> superset of it.\n"}
But I bet it's a good superset of it.

Вот еще несколько примеров. https://github.com/yiyedata/simplified-scrapy-demo/blob/master/doc_examples

...