Question

Пытаясь скрести https://www.pagesjaunes.fr/annuaire/marseille-13/jardinier, у меня проблема с нумерацией страниц.Ссылка следующей страницы хранится в теге.я получаю # после ['href'], а не по ссылке

tree = html.fromstring(response.text)
soup = BeautifulSoup(response.text, 'html.parser')
Footer = soup.find(class_='result-footer')
divpagination= Footer.find(class_='pagination')
atag=divpagination.find("a", {"id": "pagination-next"})
print(atag.get('href'))
Output : #

Примечание: я делаю запрос без заголовка Accept-Encoding, таким образом сервер не сжимает отправляемое сообщение

HTML-тег: Suivant

тег с BeautifulSoup:

bruno desthuilliers · Answer 1 · 14 мая 2019

Как вы можете видеть, просматриваете ли вы исходный код страницы в своем браузере (или просто распечатываете), эта ссылка использует js для навигации.

Существуют дополнительные (нестандартные) свойства для тега, так что вы можете в конечном итоге попытаться полностью изменить всю конструкцию (проверьте значения атрибутов тега, щелкните ссылку в браузере и сравните с эффективным URL новой страницы).

Если он не работает, вам понадобится браузер без кода и код для его управления (селен - каноническое решение Python).

получение # после извлечения href из тега <a>

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

получение # после извлечения href из тега <a>

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов