получение # после извлечения href из тега <a> - PullRequest
0 голосов
/ 14 мая 2019

Пытаясь скрести https://www.pagesjaunes.fr/annuaire/marseille-13/jardinier, у меня проблема с нумерацией страниц.Ссылка следующей страницы хранится в теге.я получаю # после ['href'], а не по ссылке

tree = html.fromstring(response.text)
soup = BeautifulSoup(response.text, 'html.parser')
Footer = soup.find(class_='result-footer')
divpagination= Footer.find(class_='pagination')
atag=divpagination.find("a", {"id": "pagination-next"})
print(atag.get('href'))
Output : #

Примечание: я делаю запрос без заголовка Accept-Encoding, таким образом сервер не сжимает отправляемое сообщение

HTML-тег: Suivant

тег с BeautifulSoup:

Suivant

1 Ответ

1 голос
/ 14 мая 2019

Как вы можете видеть, просматриваете ли вы исходный код страницы в своем браузере (или просто распечатываете), эта ссылка использует js для навигации.

Существуют дополнительные (нестандартные) свойства для тега, так что вы можете в конечном итоге попытаться полностью изменить всю конструкцию (проверьте значения атрибутов тега, щелкните ссылку в браузере и сравните с эффективным URL новой страницы).

Если он не работает, вам понадобится браузер без кода и код для его управления (селен - каноническое решение Python).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...