Посмотрите на регулярные выражения.http://docs.python.org/library/re.html
Если вы хотите иметь, например, тег <i>
, попробуйте
text = "text to search. <i>this</i> is the word and also <i>that</i> end"
import re
re.findall("<i>(.*?)</i>",text)
Вот краткое объяснение того, как работает findall: он выглядит в заданной строке для данного регулярноговыражение.Регулярное выражение <i>(.*?)</i>
:
<i>
обозначает только открывающий тег <i>
(.*?)
создает группу и максимально соответствует, пока не доходит допервый </i>
, который завершает тег
Обратите внимание, что приведенное выше решение не похоже на
<i> here's a line
break </i>
, поскольку вы просто хотели извлечь слов .
Однако, конечно, это можно сделать:
re.findall("<i>(.*?)</i>",text,re.DOTALL)