Не могу извлечь ссылку на нумерацию страниц с помощью скрапа - PullRequest
0 голосов
/ 03 октября 2018

Я хочу идентифицировать "ссылку на следующую страницу" и для многостраничного веб-сайта.У меня такое чувство, что я не могу сделать это обычным способом, так как href-content пуст (href = "").См. Здесь:

<div class="publicusers-page-navigation page-navigation">
<a href="" class="current" data-page-index="1">1</a>
<a href="" data-page-index="2">2</a><a href="" data-page-index="3">3</a>
<i>...</i>
<a href="" data-page-index="330">330</a>
<a href="" class="pagination-next" data-page-index="2">►</a>
</div>

Я пытался response.css('div.page-navigation > a::attr(href)').extract_first()

, но это не работает.

Буду признателен, если кто-то может мне помочь, так как я борюсь с этимпроблема уже какое-то время.

1 Ответ

0 голосов
/ 03 октября 2018

Вы можете просто сгенерировать URL-адреса, а затем проанализировать.

page = 0
for i in range(330):
    page+=1
    url = ('https://www.vdma.org/mitglieder'
        '?p_p_lifecycle=2&p_p_resource_id=getPage&p_p_id'
        '=vdma2publicusers_WAR_vdma2publicusers&s=&page='+str(page))
    print(url)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...