веб-очистка: перебирайте страницы сайта без возможности редактировать URL с помощью Python и запросов - PullRequest
0 голосов
/ 20 мая 2018

Я извлекаю данные с с этого сайта торгового посредника для автомобилей , но не могу найти способ перебрать страницы.Обычно я выполняю итерацию, изменяя некоторый индекс, присутствующий в URL, но в URL этого сайта нет индекса какой-либо страницы

Вот пример кода, который я обычно делаю, когда могу итерировать страницы, редактируяURL:

import requests as req

url = "https://www.seminovosunidas.com.br/veiculos/page:{}?utm_source=afilio&utm_medium=display&utm_campaign=maio&utm_content=ron_ambos&utm_term=120x600_promocaomaio_performance_-_-"
indice_pagina = 1
dados = {}
r = req.get(url.format(indice_pagina))
print(r.text)

1 Ответ

0 голосов
/ 20 мая 2018

Я думаю, вы новичок в очищении.В каждом div есть ссылки, которые вы можете найти по этому пути и перебрать для других страниц

#resultadoPesquisa > div:nth-child(1) > a

и получить атрибут herf со ссылкой типа

/Paginas/detalhes-do-carro.aspx?o=fmKOUbLvWxA%3d

, который вы можете добавитьURL для запроса продукта

так что это будет такой

complete_url = 'https://seminovos.localiza.com' + '/Paginas/detalhes-do-carro.aspx?o=fmKOUbLvWxA%3d'

комментарий, если у вас есть какие-либо вопросы

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...