Я должен извлечь группы текста из файла со списком топ десять: имя, звание, и др c. для каждого. Вы можете увидеть файл и регулярное выражение здесь https://regex101.com/r/fXK5YV/1. Он работает там, и вы можете увидеть перехвата группы.
import re
pattern = '''
(?P<list><li\sclass="regular-search-result">(.|\n)*?(?<=\<span class=\"indexed-biz-name\"\>)
(?P<rank>\d{1,2})
(.|\n)*?\<span\>
(?P<name>.+)
\<\/span\>(.|\n)*?alt=\"
(?P<stars>\d\.\d)
\sstar\srating\"(.|\n)*?\<span class=\"review-count rating-qualifier\"\>(\s|\t|\n)*?
(?P<numrevs>\d{1,7})(.|\n)*?\<span\sclass=\"business-attribute\sprice-range\">
(?P<price>\${1,6})
\<\/span\>(.|\n)*?<\/li>)
'''
pattern_matcher = re.compile(pattern, re.VERBOSE)
matches = pattern_matcher.match(yelp_html)
Эта печать None
.
1009 * Существует, безусловно, текст внутри
yelp_html
. 1012 * Что я делаю неправильно?