Question

Я пытаюсь извлечь # страниц в многостраничной таблице URL

HTML=<span style="float:right">Page 1 of 63,917</span>

Нужно извлечь 63917.

Я использовал

soup = bsoup(r.text)
pages=re.findall(r"Page 1 of\s(.+)<\/span>", str(soup))
print(pages)

Ноprint (pages) возвращает весь HTML-код вплоть до конца тела

##'63,917</span></div><table class="table table-striped##

Почему не работает мое регулярное выражение?И как мне извлечь только # из ответа HTML?

J. Taylor · Answer 1 · 11 февраля 2019

Ваше регулярное выражение не работает, потому что вы используете жадный захват в скобках группировки (.+).Как вы это написали, .+ соответствует всему, начиная с Page 1 of\s и далее (до последнего тега </span> в документе).Вам нужно использовать нежадный захват, добавив ? после +, например:

Page 1 of\s(.+?)<\/span>

Найти количество страниц в многостраничной таблице

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Найти количество страниц в многостраничной таблице

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов