Question

Я использую Python для чтения HTML данных, но мне трудно найти все подстроки между "d: Title> Good To Great <</strong>; / d: Title>" из этого HTML.

<code>data = "<html><head></head><body><pre style='word-wrap': break-word; white-space: pre-wrap;
d:Title&gt;Good To Great&lt;/d:Title&gt;d:ComplianceAssetId m:null='true'/&gt;
d:Title&gt;War and Peace&lt;/d:Title&gt;/d:ComplianceAssetId m:null='false'/&gt; 
d:Title&gt;The Great Gatsby&lt;/d:Title&gt;/entry&gt;&lt;/feed&gt;

"

Ожидаемый результат:

['Good To Great', 'War and Peace', 'The Great Gatsby']

Я подозреваю, что регулярное выражение может быть решением, но у меня ограниченные знания о regex (все еще учится), кто-нибудь может мне помочь с этой проблемой?

Заранее спасибо за вашу помощь.

josepraveen · Answer 1 · 06 марта 2020

регулярное выражение 'Title>([\w\s]+)</d:Title'

Python версия 3.7. Надеюсь, это поможет.

alec · Answer 2 · 06 марта 2020

>>> re.findall('Title&gt;(.*)&lt;/d:Title', data)
['Good To Great', 'War and Peace', 'The Great Gatsby']

Вы можете использовать подстановочный знак ., чтобы найти текст.

Python - Как найти все подстроки с рисунком в HTML?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Python - Как найти все подстроки с рисунком в HTML?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов