Найти количество страниц в многостраничной таблице - PullRequest
0 голосов
/ 11 февраля 2019

Я пытаюсь извлечь # страниц в многостраничной таблице URL

HTML=<span style="float:right">Page 1 of 63,917</span>

Нужно извлечь 63917.

Я использовал

soup = bsoup(r.text)
pages=re.findall(r"Page 1 of\s(.+)<\/span>", str(soup))
print(pages)

Ноprint (pages) возвращает весь HTML-код вплоть до конца тела

##'63,917</span></div><table class="table table-striped##

Почему не работает мое регулярное выражение?И как мне извлечь только # из ответа HTML?

1 Ответ

0 голосов
/ 11 февраля 2019

Ваше регулярное выражение не работает, потому что вы используете жадный захват в скобках группировки (.+).Как вы это написали, .+ соответствует всему, начиная с Page 1 of\s и далее (до последнего тега </span> в документе).Вам нужно использовать нежадный захват, добавив ? после +, например:

Page 1 of\s(.+?)<\/span>
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...