Пожалуйста, помогите извлечь текст из тегов HTML с помощью Python Regex - PullRequest
0 голосов
/ 03 ноября 2010

У меня есть следующий текст HTML:

Country/<i>List it here</i><br><font color="#ff00ff">Dubai</font><br><br>

Как извлечь «Дубай» из приведенного выше HTML? У меня есть несколько сотен таких строк, довольно срочных, поэтому я не исследую реализацию BeautifulSoup или парсера XML.

Большое спасибо!

1 Ответ

2 голосов
/ 03 ноября 2010

Поскольку вам просто нужно что-то быстрое и грязное, вы можете использовать:

re.match(r'.*>([^<>]*)</font>.*', s).group(1)

Это просто захватывает все вещи, не относящиеся к углам, перед закрывающим тегом шрифта.Опять же, не подходит для «настоящего» разбора.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...