Проблема с селектором - PullRequest
1 голос
/ 09 мая 2020

Код простой, но у меня возникли проблемы с определением селектора

import csv
import time
from bs4 import BeautifulSoup
import requests

source = requests.get('https://website.com').text

soup = BeautifulSoup(source, 'lxml')

nextpage= soup.find("a", string="3").get('href')
print (nextpage)

дает мне href, связанный с 3 ... но когда я пытаюсь "Next", я получаю ошибку None

путь:

<a class="" href="https://website.com;page=2">Next ›</a>]

что я делаю не так? есть ли другой способ выбрать селектор для следующего ...

код (ниже) работает

nextpage= main_pagination.find_all('a', class_='')[3]

НО проблема с этим кодом в том, что следующий может быть [5] на другом поиск ... Мне нужно универсальное решение для этой страницы ...

1 Ответ

0 голосов
/ 09 мая 2020

Другое решение.

from simplified_scrapy import SimplifiedDoc,utils
html = '<a class="" href="https://website.com;page=2">Next ›</a>'
doc = SimplifiedDoc(html)
nextpage = doc.getElementByReg('Next',tag='a')
print(nextpage)

Результат:

{'class': '', 'href': 'https://website.com;page=2', 'tag': 'a', 'html': 'Next ›'}

Вот еще примеры. https://github.com/yiyedata/simplified-scrapy-demo/tree/master/doc_examples

...